资讯
首页  >  专题  >  环球科学  >  环球科学<前沿资讯>

人工智能解开了古代文本的秘密

瑞士圣加仑修道院图书馆( Abbey Library of St. Gall );来源:维基百科
瑞士圣加仑修道院图书馆( Abbey Library of St. Gall )藏有约16万卷文学作品和历史手稿,这些文本可以追溯到8世纪,都是用现代少用的语言在羊皮纸上手写的。
写在精美的羊皮纸上的拉丁文,并盖有印章(1329年)。图片来源:维基百科
为了保护这些人类历史记录,世界各地的图书馆和修道院安全地保存着数以百万计的文本。这些藏品中有很大一部分通过数字图像向公众开放,但专家表示,其中有大量资料从未被阅读过,它们中隐藏着可以洞察世界历史的宝库。
目前,圣母大学( University of Notre Dame )的研究人员正在开发一种人工神经网络,以人类的感知能力为基础,阅读复杂的古代笔迹,以提高深度学习的转录能力。
图片来源:Pixabay
“我们处理的历史文献可以追溯到许多个世纪以前,它们的写作风格早已过时,而且是用拉丁文这样现在很少使用的语言写成的,”圣母大学计算机科学与工程系副教授Walter Scheirer说。“你可以获得这些材料的精美照片,但我们着手做的是一种自动转录方式,它可以模仿专业读者的眼睛感知页面的方式,并提供快速、可搜索的文本阅读。”
在电子电气工程师学会期刊《模式分析与机器智能学报》上发表的一项研究中,Scheirer概述了他的团队如何将传统的机器学习方法与视觉心理物理学相结合,这是一种测量物理刺激和心理现象之间联系的方法,例如专业读者识别一个特定字符、判断笔迹质量或识别某些缩写所花的时间。
Scheirer的团队研究了数字化的拉丁文手稿,这些手稿由圣加仑修道院的抄写员于9世纪所写。读者将他们的手工抄本输入到一个专门设计的软件界面中。然后,研究小组测量了转录过程中理解不同难易程度的单词、字符和段落的反应时间。Scheirer解释说,这类数据创建了一个更符合人类行为的网络,减少了错误并提供了更准确、更真实的文本阅读。
“这并不是一种常用于机器学习的策略,”Scheirer说。“我们通过心理物理测量对数据进行了标记,这些测量是行为测量,直接来自对感知的心理学研究。然后,我们将感知这些字符时常遇到的困难告知网络,并根据这些测量结果进行修正。”
利用深度学习抄写古代文献是人文学者非常感兴趣的事情。
“阅读拍摄的照片,与通过可搜索的程序进行阅读,是有区别的,”圣母大学古典学系副教授Hildegund Müller说。“如果你考虑一下这篇文章中使用的文本,即9世纪的手稿,那是中世纪的早期阶段,离印刷机出现还有很长一段时间。大量手稿创作于那个时代。这些手稿中隐藏着各种各样的信息,包括没有人见过的尚未确定的文本。”
Scheirer说,挑战依然存在。他的团队正在努力提高转录的准确性,尤其是在文件损坏或不完整的情况下,以及如何解释可能会让网络混乱的页面插图等。
然而,该团队能够调整程序,转录埃塞俄比亚文本,使其适应一种具有完全不同字符集的语言。这是为用户转录和翻译信息开发程序的第一步。
“在文学领域,它可能真的很有帮助。每一部优秀的文学作品都被大量的历史文献所包围,但真正有用的是历史档案研究,”Müller说。“我们有强烈的推进人文学科数字化的需求。当你谈到中世纪和近代早期时,如果想了解历史事件的细节和后果,必须翻阅书面材料,而这些文本是我们唯一拥有的东西。在西方世界之外的地方,这个问题可能更严重。一些语言正因文化受到威胁而消失。我们必须首先保护这些作品,使它们易于访问,并在某些时候加入翻译,让它们成为文化进程的一部分——我们正在与时间赛跑。”
翻译:赵书轩
审校:赵冰莹
引进来源:物理学家组织网
本文来自:中国数字科技馆
特别声明:本文转载仅仅是出于科普传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或其它相关事宜,请与我们接洽。
[责任编辑:环球科学]
分享到:
文章排行榜
©2011-2021 版权所有:中国数字科技馆
未经书面许可任何人不得复制或镜像
京ICP备11000850号-1 京公网安备11010502039775号
信息网络传播视听节目许可证0111611号
国家科技基础条件平台
./t20210909_1055424_taonews.html