搜索
取消

热门搜索

专题
首页  >  专题  >  环球科学  >  环球科学<前沿资讯>

可以用语音识别鉴定出蒙面圣战分子的身份吗

来源:

导语:语音识别听起来很炫酷吧?其实这项技术70年代就已经用于犯罪调查了,你可能在一些美剧或者电影里看过类似的场景。不过传统的识别技术局限性很大,而现在机器学习的发展为这项技术注入了新的生命力。在了解计算机系统如何运作之前,首先要强行科普一些关于声音和语言的知识。本文为你全方位揭示了这项神秘技术,从一个反恐案例开始。


关键词:语音识别 声学 语言学


可以用语音识别鉴定出蒙面圣战分子的身份吗?


在最新放出的伊斯兰国视频里,那位带着明显英国口音的蒙面圣战士不小心暴露了自己的身份,他被初步鉴别为来自东伦敦的穆斯林信徒Siddhartha Dhar。据报道,这次事件是由英国情报部门与语音识别专家合作展开调查的,他们采用了声音分析技术来鉴定蒙面人的身份。那么问题来了,这项技术到底是什么原理呢?它的能耐又有多大呢?
大多数人在听到一个熟悉的声音时都能很快辨认出来说话人是谁,而且只需要听对方说几个字就够了,不过听到不太熟悉的声音时可能需要更长的时间来辨认。如果对说话的内容和上下文比较熟悉的话,也会更容易辨识出来。一般来说,当机器试图去比对录音并找出匹配者时也会面临同样的限制。
通过声音来辨识说话人身份的计算机系统,即语言识别技术,根据它所要侦测的内容分为几种类型:辨识出已知的说话者(只有一个候选)是否为声音来源;或者有几个潜在对象可以匹配;又或者需要从未知录音中检测出可辨识的成分;或是需要确认待测语音样本是否出自某人之口。
现代系统通常会采取大数据分析的手段,利用大量已知录音资料对机器学习算法进行训练,使它们(计算机识别系统)可以识别出每个说话者的声音特点。机器学习的理念是计算机可以自发学习到不同说话者声音特点的区别。与之不同的是,传统方法更侧重于把每个语音样本的语言学和语音特点清楚的识别出来,以便与其它说话者的样本进行比较。
虽然我们无法真正知道什么样的特点组合起来对于声音识别最为有利,不过我们可以把这些特征划分为声学特征和语言学特征这两个类型。


声学特征和语言学特征
所谓声学特征就是指人类发声的特有方式。当我们发声时,空气从肺部被排出,从气管向上传递,经过喉头并从口鼻释放出去。空气在运动的途中使声带震动,声带的收缩和放松会改变振动频率,也就改变了我们发出声音的音调。


 

人体发声过程涉及到的器官剖面图。


口腔和鼻腔内部的一些部位,比如舌头,牙齿和嘴唇,叫做发声器官。它们可以产生不同的共振态-即共振峰,对声音作出调节以产生多样化的语音特征。我们听到的语音其实就是空气经过这些腔体并在上述身体器官之间运动所引发的一系列连锁反应的结果。
我们中的每个人都有独特的声音特点:我们肺部排气的方式,声带的振动,和发声器官的作用结合在一起产生了特定的声音。两个不同的人发出的“a”音都可能区别很大,这还仅仅是英语中44个音位之一呢(音位是组成单词最小的声音单元)。这些音位混合在一起就组成了我们说出的话语,还有从一个音位转移到下一个的方式也有所不同,同样这个说话过程的速度也因人而异。由于稳定节拍之间会有不同,英国乡村口音中元音更多而城市口音中里快速的断音更常见。
与语言学特征息息相关的则是我们说话使采用那个音位,以及使用的顺序,而不是指这些音位产生的方式。如果我说“tomahto”而你说“tomahto”,虽然我们说的是同一个词,但选择的音位却不同。根据不同地区和不同时代的习惯和常用方式,(同种语言)发音的多样化是非常大的。可以通过词的使用,不同的用词,语法模式,特定的停顿,重音,语句结构或短语这些方面特征来辨认不同的说话者。
更高级别的区分还是在于语言本身的含义。在说什么和怎么去说方面,我们每个人都会有不同的选择——我们说出的话有多直接,是否具有对抗性和挑衅性,以及其相应的程度,或者如何在说话时显示出我们的智慧。比如你可能遇到过某个说起话来就跟律师一样的人,或者像教师,又或是艺术家,那么你识别出的这些模式同样也可以被计算机识别出来。



“I owe you”这句话对应的时间-频率二维声谱图。


这下全都清楚了
在计算机方面,一开始语言学和声学特征是分离的,将大量数据压缩成可运作的特征组,这些特征组简洁的捕获了不同声音之间重要的细微差别。接着计算机会使用模式比匹配对比不同的录音样本。
可自动提取的语音特征包括音调,共振峰频率,声道长度,以及音节发出的速率。一些现代手段更倾向于采用低等级特征进行匹配,这些特征不需要太多的处理,对于听者来说包含的直接意思更少。这些都是典型的二维时间-频率图谱,比如声谱图。
一旦复杂的语音被分解成一系列更简单的代表性特征,计算机就进入了概念性模式匹配过程,这个过程会确定出最佳匹配的方式,并预测模式匹配的精确程度。给我们足够的高质量语音样本去分析,我们就能够比较准确地从一小群候选对象中选出与声音样本匹配的那个人。两方面可比对的语音样本越多,匹配的准确率就越高。在前面的案例中,专家们获得了Dhar在英国时做过的一些访谈录音样本。
如果没有任何候选对象的话,这个任务几乎是不可能完成的,这会像大海捞针一样困难。不过我们能从录音中提取出和推测出说话者的相关信息,这能够把搜索范围缩小到一个可接受的尺度。比如说,专业的监听者可以把范围缩小至具体的祖籍,年龄,性别,情绪,甚至还可以得到说话人的教育背景。在某些情况下,语音专家可以判断出说话人的出生地,他的父母是否讲第二种语言,以及他们最近是否在其它地方居住过。甚至连他们何时离开英国都能推断出来。


科学幻想还是现实?
大多数语音识别技术都属于机密项目,不过普遍认为很多国家安全机构都会运用这种技术,比如英国的GCHQ,美国的NSA ,还有中国的公安局等机构。同样大多数人都相信某些国家的机场移民局柜台都设有声音痕迹采集设备,这也许能解释为什么你有时在办理入境手续时会被问到一两个无意义的问题,既然面部识别已经在机场广泛应用了,为何不加上声音识别呢?
商用的声音匹配技术,比如GoVivace, iFlytek, IBM and Nuance公司的那些,很有可能比政府使用的技术落后了至少一代。这项技术用处有多大,目前是存在争议的,不过其实每天财政机构都在用它进行对说话人的身份认定。
自从1970年以来声音痕迹分析就被用于犯罪调查了,但效果并不总是理想的,通常更适用于要求不高的任务,也就是只需把给定录音样本与特定对像匹配这样的任务。而当候选对象的可能范围非常大时,甚至有时匹配者还不在候选范围内,这样的匹配难度就要大得多了。但困难并不意味着不可能,毕竟语音识别系统是不断进步发展的。


作者:Ian McLoughlin 是肯特大学Medway学院院长,计算机教授。
(翻译:乔虹  审校:傅斓 )


原文链接【科学美国人博客】:

https://theconversation.com/can-voice-recognition-technology-really-identify-a-masked-jihadi-52787




特别声明:本文转载仅仅是出于科普传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或其它相关事宜,请与我们接洽。
[责任编辑:系统管理员]
 收藏:0
分享到:
文章排行榜
©2011-2017 版权所有:中国数字科技馆
未经书面许可任何人不得复制或镜像
京ICP备11000850号 京公网安备110105007388号
信息网络传播视听节目许可证0111611号
国家科技基础条件平台