声音来自哪里？计算机模型可以像人脑一样回答这个问题--中国数字科技馆

资讯

专题

活动

科技馆

兴趣圈

音视频

游戏

虚拟现实

直播

知识库

当前位置：首页  >  兴趣圈  >  科幻世界  >  科幻资讯  >  科幻趣闻

声音来自哪里？计算机模型可以像人脑一样回答这个问题

来源： techxplore

责任编辑：科幻世界杂志社更新时间：2022-01-29 14:34:00

　　人类的大脑不仅能很好地识别特定的声音，而且还能确定声音来自哪个方向。通过比较到达左右耳的声音差异，大脑可以估计出正在吠叫的狗、正在哀鸣的消防车或正在靠近的汽车的位置。

　　麻省理工学院的神经科学家们现在已经开发出了一种计算机模型，它也可以执行这种复杂的任务。该模型由几个卷积神经网络组成，它不仅能像人类一样完成任务，而且还能会人类一样犯错。

　　Josh McDermott是麻省理工学院麦戈文大脑研究所的一名大脑与认知科学副教授，他说:“我们现在有了一个模型，可以真正定位现实世界中的声音。”“当我们把这个模型当作人类实验对象，模拟过去人们进行的大量实验时，我们一次又一次地发现，这个模型再现了在人类身上看到的结果。”

　　他说，这项新研究的发现还表明，人类感知位置的能力适应了环境的特定挑战。麦克德莫特同时也是麻省理工学院大脑、心智和机器中心的成员，他和研究生Andrew Francl共同完成了这篇发表在《自然人类行为》（Nature Human Behavior）在杂志上的论文。

　　建模定位

　　当我们听到一种声音，比如火车的汽笛声，声波到达我们左右耳的时间和强度略有不同。中脑的某些部分专门比较这些微小的差异，以帮助估计声音来自哪个方向，这一任务也被称为定位。

　　在现实环境中，这个任务变得更加困难——环境产生回声，同时还会受到许多噪音的干扰。

　　长期以来，科学家们一直在寻求建立计算机模型，以进行与大脑定位声音相同的计算。这些模型有时在没有背景噪声的理想环境中工作得很好，但在有噪声和回声的现实环境中就不行。

　　为了开发一个更复杂的定位模型，麻省理工学院的团队转向了卷积神经网络。这种计算机模型已经被广泛应用于人类视觉系统的建模，最近，McDermott和其他科学家已经开始将其应用于听觉。

　　卷积神经网络可以设计成许多不同的架构，因此为了帮助他们找到最适合定位的架构，麻省理工学院的团队使用了一台超级计算机，使他们能够训练和测试大约1500个不同的模型。这一搜索确定了10个似乎最适合定位的模型，研究人员进一步训练并将其用于所有后续研究。

　　

　　为了训练这些模型，研究人员创建了一个虚拟世界，在这个虚拟世界中，他们可以控制房间的大小和房间墙壁的反射特性。所有输入模型的声音都来自这些虚拟房间中的某个地方。这套超过400种的训练声音包括人声、动物声、机器声(如汽车引擎)和自然声(如雷声)。

　　

　　研究人员还确保模型从人类耳朵提供的相同信息开始。外耳，或称耳廓，有许多折痕反射声音，改变进入耳朵的频率，这些反射根据声音来自哪里而变化。在进入计算机模型之前，研究人员通过一个专门的数学函数来模拟这种效果。

　　Francl说:“这使模型能够获得与人类测试者相同的信息。”

　　训练完模型后，研究人员在真实环境中对其进行了测试。他们把一个耳朵里装有麦克风的人体模型放在一个真实的房间里，播放来自不同方向的声音，然后将这些录音输入模型。当被要求定位这些声音时，这些模型的表现与人类非常相似。

　　Francl说:“虽然这个模型是在虚拟世界中训练的，但它其实可以在现实世界中定位声音。”

　　与人类相似的模式

　　然后，研究人员对这些模型进行了一系列测试，科学家们过去曾用这些测试来研究人类的定位能力。

　　除了分析左右耳到达时间的差异外，人类大脑还根据到达每只耳朵的声音强度的差异来判断声音的位置。先前的研究表明，这两种策略的成功与否取决于传入声音的频率。在这项新研究中，麻省理工学院的研究小组发现，模型对频率的敏感性也表现出同样的模式。

　　McDermott说:“这个模型似乎和人类一样使用两只耳朵之间的时间和强度差异，在某种程度上是依赖于频率的。”

　　研究人员还表明，当他们通过同时播放多个声源来增加定位难度时，计算机模型的性能下降的方式与人类在相同情况下判断失败的情况非常相似。

　　“当你添加越来越多的声音来源时，你会发现人类准确判断当前声源数量的能力，以及他们定位这些声源的能力出现了一种特定的下降模式。”Francl说，“人类似乎只能同时定位三个声源，当我们在电脑模型上进行相同的测试时，我们看到了非常相似的行为模式。

　　因为研究人员使用了一个虚拟环境来训练他们的模型，所以能够探索当模型在不同类型的环境条件下定位时会发生什么。研究人员在一个没有回声的虚拟环境里训练一组模型，在一个一次只听到一个声音的环境里训练另一组模型，第三种情况，模型只接触频率范围较窄的声音，而不是自然出现的声音。

　　当在这些非自然环境中训练的模型在同一组行为测试中被评估时，模型偏离了人类的行为，它们失败的方式取决于它们所接收训练的环境类型。研究人员说，这些结果支持了这样一个观点，即人类大脑的定位能力是适应人类进化的环境的。

　　McDermott说，研究人员现在正在将这种模型应用到听觉的其他方面，比如音高感知和语音识别，并且相信它也可以用来理解其他认知现象，比如一个人能够注意到或记住的东西的限制。

　　

　　（独家编译：科幻世界）
本文来自： techxplore

上一篇：白贲是谁？来盘盘这个人在科幻世界广结的善缘！

下一篇：研究称：地球生命源于一场“病毒雨”，章鱼或来自外太空！
每日荐书

不一样的竞速者
同样身体有缺陷的众人组成了一支参赛队伍，他们齐心协力......

不测之球
新人类的出现，是这个时代最具影响的重大事件，没有之一。 ...

添加官方微信了解最新资讯

微信新浪微博 QQ QQ空间

分享到微信朋友圈

打开微信，点击底部的“发现”，
使用“扫一扫”即可将网页分享至朋友圈。

最热文章

刘慈欣：机器能写现代诗，但远远追不上古典作家
人工智能写科幻小说，和作家写科幻小说有什么不一样？

Paul Siedler作品欣赏
德国概念设计师Paul Siedler的场景创作，宏大气派。

《月球》精神续作《静音》来了，邓肯·琼斯依然让人期待
《静音》是一部 Netflix 电影。尽管 Netflix 过去一年在原创电影上的表现并不如预期，但是《静音》仍让人颇为期待

每个机器人干掉了 5.6 个蓝领工作，现在轮到白领又会产生多大影响？
最近，美国最大的经济研究机构——全国经济研究所（NBER，全美超过一半的诺奖经济学得主都曾是该机构的成员）发布了一份报告，全面分析了 1990 到 2007 年的劳动力市场情况。\n

坊间传言：坏机器人制片公司最新的二战电影其实是秘密拍摄的科洛弗系列？
坏机器人制片公司最新的一部电影名为《霸主》（overlord），背景设置在二战时期，很可能是一部在半遮半掩中秘密制作的科洛弗电影系列。

华纳兄弟欲重启《黑客帝国》系列
我们都知道，到处都在重启；我们也知道，如果有钱，啥都能重启。所以，会不会被重启算不上是个问题，只能问什么时候会被重启。自然而然地，世界各地的各种重启现象衍生出了一个有趣的猜猜游戏：哪一部老作品会是下一个接受这种待遇的？\n

科幻视听

偷来的弟弟（一）

我的基因

恶魔之花（二）

关于我们网站声明官方微博站点地图

京ICP备11000850号-1 京公网安备11010502039775号信息网络传播视听节目许可证0111611号国家科技基础条件平台

© 2011-2022 版权所有：中国数字科技馆未经书面许可任何人不得复制或镜像

©2011- 版权所有：中国数字科技馆
未经书面许可任何人不得复制或镜像
京ICP备11000850号-1

京公网安备11010502039775号
信息网络传播视听节目许可证0111611号
国家科技基础条件平台