专题
首页  >  兴趣圈  >  科幻世界  >  科幻之科

识别A.I.——现实与想象的距离

来源:中国数字科技馆

  文/李海 

  20xx年的某一天,运行在超级计算机上的A.I.拥有了独立的意识,人们一觉醒来,发现自己被家里的智能冰箱、智能洗衣机、智能汽车等各种智能机器人挟持,彻底变成了奴隶。 

  这一幕会出现吗?A.I.的能力真的可以远超人类,并控制人类吗?现实生活中的A.I.是怎样的? 

识别A.I.——现实与想象的距离

  A.I.的发展经历了从感知到认知的发展。感知,就是机器能够像人一样去“看见”和“听见”,但仅仅是看见和听见,并不能根据感知到的信息进一步的分析;认知,就是机器能够像人一样将感知到的信息进行加工,得到更深层次的信息。科幻作品中充满着各种各样A.I.感知和认知的故事,有的已经实现,有的理论上可以实现,有的可能永远只能停留在故事里。 

  《终结者2》里面的T-1000,生化机器人,是80,90后们童年的梦魇,他看你两眼可以模仿你的样貌,听你两声可以模仿你的声音,一双鬼火一般的眼睛还摄人魂魄,不放过视野里任何一个细节,现实的A.I.真能有这么厉害吗? 

识别A.I.——现实与想象的距离

  答案是“差不多”。 

  什么是“差不多”?我们来盘一盘。 

  A.I.怎么能模仿你的样貌呢?在这一点上,现实和理想还是差很多的。笼统地说,一个人的样貌包括静态和动态两部分,静态包括面部外观和躯干,动态包括走路和跑步的姿态等。对于A.I.来说,静态的相对好解决,现在基于深度学习的面部和躯干的3D重建技术发展的相对较好,只要拍几张静态的2D的照片,就能在电脑里面重建一个3D模型,如果拍的照片越多,重建出来的模型就越逼真,如果再用上3D打印技术,那Copy出一个差不离的“你”,还是可行的。但就现阶段的技术来讲,还不能做到完全以假乱真,所以大家还是可以放心的,不用担心有一天你家里多了一个“你”。 

  那声音呢?Siri和小度都能开口说话了,那能模仿我说话吗?这一点还真差的不多了。在A.I.语音合成领域有两种方式,一种叫文本转语音(Text To Speech),另外一种叫语音转语音(Voice Conversion),两种效果不一样,用法也不一样。 

  文本转语音是输入文字给A.I.,A.I.就直接输出对应的语音,Siri和小度就是这种方式。这种方式最大的问题是没有“情感”。对于我们人类来说,同样一句话可以说出无数种情感,表达出无数个意思,但对于文本转语音来说,只能输出一种情感,因为A.I.不知道你想怎么表达。所以这种用法还吓不着我们,因为基本上能听出是机器合成的语音。 

  语音转语音是将A的语音变换成B的语音,保持抑扬顿挫以及情感不变,仅仅把音色给变了。比如,将你的声音变成了林志玲的声音,不论你是男是女,看着是刘德华在说话,听着却是林志玲,也就是柯南的变声器。而且这种技术已经日臻完善,做到以假乱真已经不远了。 

  要实现以上两种模仿方式,A.I.需要“学习”目标说话人的语音,“学习”得越多,模仿得越像。看到这里是不是已经感受到A.I.的“恐怖”,开始担忧坏人会不会用A.I.来做坏事?所以,如果A.I.不能“向善”,咱们只能用其他的A.I.来“止恶”。当然,这个又是另外一个话题了。 

识别A.I.——现实与想象的距离

  T-1000除了能模仿外貌和声音,还有那鬼火一样的双眼,仿佛能看穿一切,现实中的A.I.真能有这么厉害吗?答案也是差不多。 

  以现在的A.I.技术,我们可以相对比较容易地让机器识别文字、动物、物体、人等等。像手机百度APP已经支持拍照“识万物”的功能,包括成千上万种动植物等。相信任何一个动植物学家也不敢打包票,单凭一双眼睛就能认得这么多动植物。基于A.I.的人脸识别技术现在也发展到了较高的水平,可以在极短时间内识别出照片里面的人是谁,现在越来越多的“刷脸”支付,“刷脸”门禁等等就是很好的应用。那T-1000的眼睛已经无解了吗?也不竟然。和前面提到的A.I.模仿声音类似,A.I.的识别功能也是需要“学习”的,需要我们给A.I.提供大量标注后的图片进行学习,比如告诉A.I.这几百张趴在泥地上的动物是狗,这几百张趴在草地上的动物是猫。但是遗憾的是,A.I.的学习能力是机械的,我们只给A.I.看了趴在泥地上的狗和趴在草地上的猫,如果让A.I.识别草地上的狗和泥地上的猫的话,对不起,A.I.就不认识了,因为A.I.只见过泥地上的狗和草地上的猫。 

  所以,A.I.在识别方面很大的劣势在于只能识别见过的东西,而咱们人类却能举一反三,不管猫狗蹲在哪里,我们都能认识他们。 

  前面我们提到的都是A.I.关于看、听、说这样的感知功能,那么认知功能怎样呢?A.I.能思考吗,有感情吗?大量的科幻作品在这方面进行了无限的遐想。 

  2013年有一部叫做《HER》的科幻电影在美国上映,是一部很有代表性的科幻爱情电影,讲述了男主人公与他的“A.I.女友”萨曼莎的故事。故事中的萨曼莎没有真实的物理形象,只是存在于电脑和手机中的一个软件系统,她可以与男主人公对话,不断丰富自己的意识和情感,她的风趣幽默和善解人意让男主深深地陷入爱情之中。 该片也获得了2014年第86届奥斯卡最佳原创剧本奖。 

识别A.I.——现实与想象的距离

  在电影上映的2013年,深度学习还没有像今天这样有大的发展,所以这样一个能和人类流畅交流,甚至谈恋爱的“A.I.女友”还只能存在于科幻世界。在“A.I.女友”的背后是基于A.I.的对话系统技术。在2020年的今天,对话系统技术已经有了很大的发展,我们距离“A.I.女友”又近了一步。像我们熟知的苹果Siri,百度的小度,小米的小爱同学,都是对话系统的代表。 

  对话系统现在可以分为两大类:任务型单轮对话和开放域的多轮对话。 

  任务型单轮对话就是一问一答类型的,比如 

  你:“小度小度,今天天气怎么样?“ 

  小度:“今天成都气温20度,天气挺好的。” 

  任务型的单轮对话已经相对成熟,已经广泛应用于语音助理、智能客服等场景。在这种场景下,我们甚至无法区分另一端是一个人还是A.I.。 

  开放域的多轮对话更接近于我们常见的场景,“A.I.女友”也是属于这种开放域的范畴,可以是针对一个话题进行多次的问答,也可以是没有特定目的闲聊,比如: 

  女友:亲爱的,今天你生日,我们去吃好吃的吧?你想吃什么? 

  男友:好啊,吃火锅吧。 

  女友:太辣。 

  男友:披萨吧? 

  女友:热量太高。 

  男友:亲爱的,那你想吃什么? 

  女友:还是第一个吧,微辣吧。 

  对话进行了好几轮,吃饭的选择权从男友转移到了女友,最后的结论也只是一个简单的指代“第一个”。这对人类来说可能是一个简单的阅读理解,但是对于现阶段的A.I.来讲还相对较难。虽然多轮对话技术已经有了长足的发展,但是仍然不完善。所以,如果你和A.I.谈恋爱,很容易陷入答非所问的尬聊,瞬间把天聊死。 

  A.I.虽然有了突飞猛进的发展,在不少领域的表现也超出了人们的预期,但大多数A.I.还是基于人类产生的大数据去学习并获得智能的,所以只要人类掌握着数据,那A.I.这个“孙悟空”就飞不出人类的五指山。 

本文来自:中国数字科技馆
特别声明:本作品是中国数字科技馆原创内容,未经授权禁止转载、摘编及其他形式使用。转载授权、合作、投稿等请联系 cdstm_service@163.com
[责任编辑:kehuan]
分享到:
文章排行榜
猜你喜欢
©2011-2021 版权所有:中国数字科技馆
未经书面许可任何人不得复制或镜像
京ICP备11000850号 京公网安备11010502039775号
信息网络传播视听节目许可证0111611号
国家科技基础条件平台
./t20201229_1039868_taonews.html