资讯
首页  >  专题  >  环球科学  >  环球科学<前沿资讯>

深度神经网络和人类感知的差异

来源:环球科学

(图片来源:CC0 Public Domain)

当你的母亲喊你的名字的时候,你会知道那是她的声音,即使这个声音来自时断时续的电话;同样的,当你看见她的脸时,就算她离你很远,或者光线很微弱,再或者你是通过信号微弱的FaceTime进行视频通话,都不会影响你知道那是她。这种对周围变化的鲁棒性是人类感知的特征。另一方面,我们对幻觉却很敏感:我们可能不能区分不一样的声音和图像。科学家已经对许多幻觉做出了解释,但我们依然对听觉和视觉系统的不变性(invariances)缺乏全局性的理解。

深度神经网络同样对听觉和视觉刺激的变化有很强的鲁棒性,这在语言识别和图像识别方面得到了充分展示。但是,深度神经网络通过学习得来的不变性和人类感知的不变性是相似的吗?来自麻省理工学院的一个研究团队发现了它们之间的差异。

研究者对同色异谱现象(metamers)做了新颖的总结。同色异谱现象是一个经典的概念,指产生相同感知效果的不同种类刺激。这一概念源自辨识颜色:绝大多数人的视网膜上都具有三种不同类型的视锥细胞(cones),这些细胞负责视觉中颜色感知。因此我们看到的任何波长的光都可以由三种不同颜色的光进行组合,例如红、绿和蓝光。十九世纪的科学家们从这一现象中推断出人眼中可能具有三种不同的光感受器(bright-light detector)。这也是当前所有电子彩色显示器的理论基础。另一个关于视觉系统的例子是,当我们一直盯着一个物体时,我们可能会将物体周围的不同场景刺激当成是一致的,就像聚焦一样。在听觉方面,一些相似的情况也可以被观察到。例如,尽管两种不同的昆虫群体的声学构成细节是有差异的,我们依然可能会难以分辨它们之间的声音差异,这是因为它们具有相似的总体统计属性(aggregate statistical properties)。在上述例子中,同色异谱现象均对感知的机理提供了启示,也为构建人类视觉和听觉系统提供了约束模型。

在当前的工作中,研究者通常会随机选择一些来自标准数据库的自然图片和口语片段,综合这些图片和声音后,深度神经网络会根据它们对应的自然物体进行分类。这就是说,这些图片和声音片段产生了对计算机来说截然不同的刺激类型,从而可以被模型(而不是人类)同等地进行区分。这是对同色异谱现象的一种全新的想法,即用计算机模型调换了同色异谱现象定义中的人类感知角色。所以,他们将这种处理过的刺激称为与自然刺激相配对的“模型同色异谱现象(model metamers)”。之后,研究者测试了人类是否可以区分这些文字和图片。

“参与者在听到一段演讲片段后,需要从列出的单词中分辨出哪些单词位于片段中。实际上,对于自然音频来说这是很容易的,但对于模型同色异谱现象来说,人类并不容易分辨。”文章的第一作者Jenelle Feather说道,他是麻省理工学院大脑与认知实验室(BCS)的研究生,并且是大脑、思维与机器中心(CBMM)的成员。也就是说,人类不会将合成的刺激与口语中的“鸟”或鸟的图片归为同一类。实际上,所生成的模型同色异谱现象通常与模型最深层的响应相匹配,并且通常很难被受试者认为是单词或者图片。

Josh McDermott是CBMM的研究员,也是BCS的助理教授,他说道:“通常的逻辑认为,如果我们有一个准确的模型可以对人类的感知进行建模的话,比如语言识别,那么我们挑选出两种模型认为相同的声音,并让人类去辨识,人类应该也可以得出同样的结论。如此来说,如果人类认为这种刺激是不一样的,这很清楚地说明,我们的模型并没有完全与人类的感知相匹配。”

除了Feather和McDermott,论文的作者还有硕士生Alex Durango,以及助理研究员Ray Gonzalez。他们都是BCS的成员。

除此之外,深度神经网络还有另一个问题被广为关注:对抗样本(adversarial examples)(比如,为什么我的分类器将海龟当成来复枪?)。神经网络误匹配了这些对人类来说相似的刺激(或者说,它们就是故意被设计成容易误匹配的)。这些刺激与Feather课题组生成的刺激是互补的,即虽然声音和图像对于人类来说是不相同的,但模型网络却分成了同一类。模型网络暴露在对抗攻击下的漏洞是众所周知的,例如面部识别会错误地识别特征,自动驾驶车辆不能辨认出行人等。

该研究的重要性在于超越深度网络来提升模型的感知能力。标准对抗样本证明深度神经网络和人类感知系统中是存在差异的,而由McDermott团队生成的新的刺激引出了一个更加基础的失效模型——深度神经网络认为这些普通的刺激样本是相同的,但人类的感知却认为有很大差异。

该团队还提出了新的方法来改型模型网络,使其产生同色异谱现象,让声音和图像对于人类来说更加合理。正如McDermott说的“这给了我们足够的希望,我们最终可能可以开发出满足同色异谱现象测试的模型,从而更好地捕捉人类感知的不变性。”

“同色异谱现象揭示了过往的神经网络在匹配人类视觉和听觉系统不变性上的失败。”Feather说道:“我们希望这一研究可以提供更加有效的行为测量方法,提高模型的描述性,并生成更能代表人类感知系统的模型。”

作者:Kenneth I. Blum

翻译:刘一尘

审校:郝豪

引进来源:麻省理工学院

本文来自:环球科学
特别声明:本文转载仅仅是出于科普传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或其它相关事宜,请与我们接洽。
[责任编辑:环球科学]
分享到:
文章排行榜
©2011-2025 版权所有:中国数字科技馆
未经书面许可任何人不得复制或镜像
京ICP备11000850号-1 京公网安备11010502039775号
信息网络传播视听节目许可证0111611号
国家科技基础条件平台
./t20200114_937570_taonews.html