Facebook等社交网络正在寻求满足全世界所有语言的高效自动翻译,人工智能或许能解决这个问题。
机器翻译工具的设计者仍然主要依靠词典来翻译外语。但现在有一个新的方法:数字。
Facebook的研究人员说,尽管拥有一个像《星际迷航》中的通用语言翻译机仍然是一个遥远的梦想,但将单词转换成数字并利用语言之间的数学相似性是一条很有前途的途径。
强大的自动翻译能力是互联网巨头抢占优势的制高点。让全世界尽可能多的人可以无障碍交流不仅是一个利他主义的目标,也是一个好商机。脸书(Facebook)、谷歌(Google)和微软(Microsoft)以及俄罗斯的Yandex、中国的百度和其他公司都在不断寻求方法改进他们的翻译工具。
比如Facebook在巴黎的一个研究实验室里就有人工智能方面的专家在工作。社交网络基础人工智能研究协会(fundamental AI research for the social network)的欧洲联合主席Antoine Bordes表示,目前Facebook上使用的语言多达200种。
目前,自动翻译的原理是基于建立两种语言相同语义文本的大型数据库。但是对于许多语言对来说,受限于词汇数量,没有足够多的平行文本供参考。这就是为什么研究人员一直在寻找另一种方法,比如Facebook开发的系统,它可以为单词创建数学表示。每个词在几百维的空间里都变成一个“向量”。在口语中有密切联系的词在这个向量空间中也很接近。
从巴斯克语到亚马逊部落的语言?该系统的设计者之一Guillaume Lample说:“例如,如果从现实生活中的语义上看,‘猫’和‘狗’这两个词是描述动物的词,因此它们在向量空间也会非常接近。比如马德里、伦敦、巴黎这些都是形容欧洲首都的名词,道理也是一样,它们在向量空间里会非常接近。”
然后,这些语言映射可以先用算法粗略地连接,但最终会变得更加精细,直到整个短语可以被匹配而不会出现太多错误。Lample说,结果很有希望。对于英语和罗马尼亚语这对语言来说,Facebook目前的机器翻译系统与单词向量系统相当,或者可能更差一些。但他说,对于罕见的英语-乌尔都语(Facebook的传统系统中没有很多双语文本可供参考)语言对来说,单词向量系统的优势就很明显了。
但是,这种方法是否可以将巴斯克语翻译成亚马逊部落的语言呢?Lample说,从理论上讲,可以,但实际上需要大量的书面文本来建立语言映射,这是亚马逊部落语言所缺乏的。“如果你只有数万个短语,那就行不通了。你需要几十万。”
法国CNRS国家科学中心的专家表示,即使Lample为Facebook所采取的方法不会带来完美的翻译,但是可以产生有用的结果。CNRS的Lattice实验室的Thierry Poibeau也对机器翻译进行了研究,他称这种向量方法为“概念革命”。他说,“没有平行数据的翻译”——平行数据即两种语言中表达相同含义的对应语言的词典或记录——是机器翻译的“圣杯”。Poibeau说:“但问题是词向量的方法是否有潜力,它可以被期望达到什么样的性能水平。”这种方法可以给出原文的意思,但每次都能达到很好的翻译能力还没有得到证实。
CNRS计算机科学实验室的机械与工程科学研究员Francois Yvon表示,“当语言彼此相距甚远时,语言之间的联系就困难得多。”他补充说:“比如汉语表达概念的方式与法语就完全不同。然而,即使不完善的翻译也可以被使用,Yvon说,比如用于追踪仇恨言论,这对Facebook来说是很大的优势。
作者:Laurent Barthelemy
翻译:王昕
校对:郝豪
引进来源:法新社(AFP)