识别A.I.——现实与想象的距离--中国数字科技馆

文/李海

20xx年的某一天，运行在超级计算机上的A.I.拥有了独立的意识，人们一觉醒来，发现自己被家里的智能冰箱、智能洗衣机、智能汽车等各种智能机器人挟持，彻底变成了奴隶。

这一幕会出现吗？A.I.的能力真的可以远超人类，并控制人类吗？现实生活中的A.I.是怎样的？

识别A.I.——现实与想象的距离

A.I.的发展经历了从感知到认知的发展。感知，就是机器能够像人一样去“看见”和“听见”，但仅仅是看见和听见，并不能根据感知到的信息进一步的分析；认知，就是机器能够像人一样将感知到的信息进行加工，得到更深层次的信息。科幻作品中充满着各种各样A.I.感知和认知的故事，有的已经实现，有的理论上可以实现，有的可能永远只能停留在故事里。

《终结者2》里面的T-1000，生化机器人，是80,90后们童年的梦魇，他看你两眼可以模仿你的样貌，听你两声可以模仿你的声音，一双鬼火一般的眼睛还摄人魂魄，不放过视野里任何一个细节，现实的A.I.真能有这么厉害吗？

识别A.I.——现实与想象的距离

答案是“差不多”。

什么是“差不多”？我们来盘一盘。

A.I.怎么能模仿你的样貌呢？在这一点上，现实和理想还是差很多的。笼统地说，一个人的样貌包括静态和动态两部分，静态包括面部外观和躯干，动态包括走路和跑步的姿态等。对于A.I.来说，静态的相对好解决，现在基于深度学习的面部和躯干的3D重建技术发展的相对较好，只要拍几张静态的2D的照片，就能在电脑里面重建一个3D模型，如果拍的照片越多，重建出来的模型就越逼真，如果再用上3D打印技术，那Copy出一个差不离的“你”，还是可行的。但就现阶段的技术来讲，还不能做到完全以假乱真，所以大家还是可以放心的，不用担心有一天你家里多了一个“你”。

那声音呢？Siri和小度都能开口说话了，那能模仿我说话吗？这一点还真差的不多了。在A.I.语音合成领域有两种方式，一种叫文本转语音（Text To Speech），另外一种叫语音转语音（Voice Conversion），两种效果不一样，用法也不一样。

文本转语音是输入文字给A.I.，A.I.就直接输出对应的语音，Siri和小度就是这种方式。这种方式最大的问题是没有“情感”。对于我们人类来说，同样一句话可以说出无数种情感，表达出无数个意思，但对于文本转语音来说，只能输出一种情感，因为A.I.不知道你想怎么表达。所以这种用法还吓不着我们，因为基本上能听出是机器合成的语音。

语音转语音是将A的语音变换成B的语音，保持抑扬顿挫以及情感不变，仅仅把音色给变了。比如，将你的声音变成了林志玲的声音，不论你是男是女，看着是刘德华在说话，听着却是林志玲，也就是柯南的变声器。而且这种技术已经日臻完善，做到以假乱真已经不远了。

要实现以上两种模仿方式，A.I.需要“学习”目标说话人的语音，“学习”得越多，模仿得越像。看到这里是不是已经感受到A.I.的“恐怖”，开始担忧坏人会不会用A.I.来做坏事？所以，如果A.I.不能“向善”，咱们只能用其他的A.I.来“止恶”。当然，这个又是另外一个话题了。

识别A.I.——现实与想象的距离

T-1000除了能模仿外貌和声音，还有那鬼火一样的双眼，仿佛能看穿一切，现实中的A.I.真能有这么厉害吗？答案也是差不多。

以现在的A.I.技术，我们可以相对比较容易地让机器识别文字、动物、物体、人等等。像手机百度APP已经支持拍照“识万物”的功能，包括成千上万种动植物等。相信任何一个动植物学家也不敢打包票，单凭一双眼睛就能认得这么多动植物。基于A.I.的人脸识别技术现在也发展到了较高的水平，可以在极短时间内识别出照片里面的人是谁，现在越来越多的“刷脸”支付，“刷脸”门禁等等就是很好的应用。那T-1000的眼睛已经无解了吗？也不竟然。和前面提到的A.I.模仿声音类似，A.I.的识别功能也是需要“学习”的，需要我们给A.I.提供大量标注后的图片进行学习，比如告诉A.I.这几百张趴在泥地上的动物是狗，这几百张趴在草地上的动物是猫。但是遗憾的是，A.I.的学习能力是机械的，我们只给A.I.看了趴在泥地上的狗和趴在草地上的猫，如果让A.I.识别草地上的狗和泥地上的猫的话，对不起，A.I.就不认识了，因为A.I.只见过泥地上的狗和草地上的猫。

所以，A.I.在识别方面很大的劣势在于只能识别见过的东西，而咱们人类却能举一反三，不管猫狗蹲在哪里，我们都能认识他们。

前面我们提到的都是A.I.关于看、听、说这样的感知功能，那么认知功能怎样呢？A.I.能思考吗，有感情吗？大量的科幻作品在这方面进行了无限的遐想。

2013年有一部叫做《HER》的科幻电影在美国上映，是一部很有代表性的科幻爱情电影，讲述了男主人公与他的“A.I.女友”萨曼莎的故事。故事中的萨曼莎没有真实的物理形象，只是存在于电脑和手机中的一个软件系统，她可以与男主人公对话，不断丰富自己的意识和情感，她的风趣幽默和善解人意让男主深深地陷入爱情之中。该片也获得了2014年第86届奥斯卡最佳原创剧本奖。

识别A.I.——现实与想象的距离

在电影上映的2013年，深度学习还没有像今天这样有大的发展，所以这样一个能和人类流畅交流，甚至谈恋爱的“A.I.女友”还只能存在于科幻世界。在“A.I.女友”的背后是基于A.I.的对话系统技术。在2020年的今天，对话系统技术已经有了很大的发展，我们距离“A.I.女友”又近了一步。像我们熟知的苹果Siri，百度的小度，小米的小爱同学，都是对话系统的代表。

对话系统现在可以分为两大类：任务型单轮对话和开放域的多轮对话。

任务型单轮对话就是一问一答类型的，比如

你：“小度小度，今天天气怎么样？“

小度：“今天成都气温20度，天气挺好的。”

任务型的单轮对话已经相对成熟，已经广泛应用于语音助理、智能客服等场景。在这种场景下，我们甚至无法区分另一端是一个人还是A.I.。

开放域的多轮对话更接近于我们常见的场景，“A.I.女友”也是属于这种开放域的范畴，可以是针对一个话题进行多次的问答，也可以是没有特定目的闲聊，比如：

女友：亲爱的，今天你生日，我们去吃好吃的吧？你想吃什么？

男友：好啊，吃火锅吧。

女友：太辣。

男友：披萨吧？

女友：热量太高。

男友：亲爱的，那你想吃什么？

女友：还是第一个吧，微辣吧。

对话进行了好几轮，吃饭的选择权从男友转移到了女友，最后的结论也只是一个简单的指代“第一个”。这对人类来说可能是一个简单的阅读理解，但是对于现阶段的A.I.来讲还相对较难。虽然多轮对话技术已经有了长足的发展，但是仍然不完善。所以，如果你和A.I.谈恋爱，很容易陷入答非所问的尬聊，瞬间把天聊死。

A.I.虽然有了突飞猛进的发展，在不少领域的表现也超出了人们的预期，但大多数A.I.还是基于人类产生的大数据去学习并获得智能的，所以只要人类掌握着数据，那A.I.这个“孙悟空”就飞不出人类的五指山。

本文来自：中国数字科技馆

特别声明：本作品是中国数字科技馆原创内容，未经授权禁止转载、摘编及其他形式使用。转载授权、合作、投稿等请联系 cdstm_service@163.com

[责任编辑：kehuan]

导航

热门搜索

识别A.I.——现实与想象的距离

查看猜你喜欢

恭喜您完成注册！

注册失败！

导航

热门搜索

识别A.I.——现实与想象的距离

分享到微信朋友圈

查看猜你喜欢

恭喜您完成注册！

注册失败！