科学连线第三期：机器人的新纪元--中国数字科技馆

直播小组

直播小组第一时间为您呈现精彩科学事件。

科学连线第三期：机器人的新纪元

2019-09-16 17:27:23

演讲科学家：陶大程（Dacheng Tao），澳大利亚悉尼大学教授、人工智能学家、澳大利亚科学院院士，欧洲科学院外籍院士

特邀嘉宾：赵明国，清华大学自动化系副教授、机器人控制实验室主任

时间：2018年12月8日

地点：中国科技馆206报告厅

“科学连线”是由中国数字科技馆和《环球科学》杂志联合推出的前沿科学系列讲座，主办方将邀请世界知名科学家通过视频连线或现场演讲的方式，为现场观众带来精彩演讲。同时，主办方还将邀请一位国内学者作为特邀嘉宾出席，与国外知名科学家对话，帮助观众更轻松、更深入地理解前沿科学。

每一期活动结束后，我们都会上传科学家的演讲视频，整理科学家的演讲实录，供广大科学爱好者观看和阅读。下面是科学连线第三期的演讲科学家陶大程教授的演讲内容。

主题演讲部分：

很高兴来到中国科技馆，来为大家介绍一下我们这几年在人工智能领域做的一些工作。那么，什么是人工智能呢，大家看这样一张照片，然后我问大家一个小的问题。这里面有多少个人？最简单的是数这里面有多少张人脸。整体数呢，一个个的数下来去，大概要数一个多小时，然后你能数出来多少张脸呢？你能数出来大概是900多张脸。那同样的事情，如果我们用人工智能的算法，有一台带有GPU的计算机，我们用3秒钟就能完成这个事情。这个事情听上去很简单。但是，实际上对计算机来说这个任务并不总是这么简单。在2017年的时候，我们差不多能检测出来700多张人脸。后来是800多张，最近，我们大概能检测出来900多张，跟人的performance就差不太多了。

但是，我们同时也发现一个问题，我们用计算机去做检测的时候，检测出来一些地方，然后让人再去看一下。当时人发现这个地方没有检测出来，当时没有注意到这个地方有一张脸，然后把这张图像放大一点点，然后人一看这里确实有一张人脸。但是也有些地方计算机检测错误了，检测出来一个实景框，它觉得是一张人脸。但实际上仔细一看，它可能又不是一张人脸。所以对于每一个框，我们也可以设置一个输出的概率，就是说大概有多少的可能性这个框是一张人脸，或者不是一张人脸。从这个例子上我们可以看出来，如果说我们把人和机器放在一起，协同地处理这件事情，那我们就能得到一个又快又好的答案。人不用一张一张地去数，计算机也可以用30秒的时间把所有的有可能的框都圈出来，再把这些低概率的框告诉人，让人去Double check一下，看看这里是一张脸还是不是一张脸。然后就可以得出一个非常好的结论。

那么这个只是人工智能的一个非常简单的应用。到底什么是人工智能呢？人工智能实际上就是机器的智能。相对于自然智能，实际上就是人的智能。所以说人工智能的目的是什么呢？人工智能的目的就是在一定程度上模仿人的智能，然后利用模仿出来的人的智能来帮助人完成一些相关的事情。这样的话我们就需要理解什么是人的智能。什么是人的智能呢？人有四个方面的智能，那这个就是perceiving、learning、reasoning和behaving。那这四个方面的智能实际上我们都可以用一些算法来表示。这就是我们最终所期望的人工智能。

这几年大家可以说是都在说深度学习，要实现人工智能必须要深度学习。为什么这么说呢？我这里举个例子，比如说可以看一下这个视频。这个视频大家一看就知道在干什么，实际上的目的就是说我们希望用这些棒棒人，这些蓝色系杆、绿色系杆、红色系杆来表征人的上半身，然后以此来跟踪人的这些特殊的关节点，手、肘、肩和头。通过这样的跟踪，我们就能够去理解人的行为。但这里面的问题就出来了。我们看到这样的效果不太好，但是这个是在用深度学习之前最好的算法之一了。它能够利用这些，也就是说，我们人所涉及的这些特征，然后结合概率通过性来估计人的pose。其他的地方是一些对比的算法，我们看到对比的算法可能与这个算法又要有一些差距。所以说当你不用深度学习的时候，你大概能够达到这样的一个状态，但是这样的状态对我们来说，实际上在现实生活中，如果真的想去实用的话还是远远不够的。

如果说我们用了深度学习，能做到什么呢？大家可以看一下这个视频。这个是我们在今年的前几个月所得到的一个实验结果。我们可以看到，我们现在利用深度学习，能够做到非常多的，非常有意思的事情。做人的检测，行人的检测，物体的检测，背景的分割，场景的离解，人脸检测，包括pose tracking。甚至我们能够知道人脸的表情、人脸的年龄，然后估计出来人到摄像机有多远的距离。我们并没有用任何的激光雷达，我们也没有用任何特殊的传感器，仅仅是用普通的摄像机拍下来这样的视频，就能够完成所有的这些事情。所以说当我们深度学习之后，我们确实能够做很多我们原来做不了的事情，或者说我们原来做不好的一些事情。那么这个就反映出来一个特点，就是大家确实觉得，深度学习在改变人工智能的状态，也为我们带来了很多可以期待的事情。

那除了做这些基本的东西之外，实际上我们用深度学习也好，用人工智能技术也好，还能做很多非常有意思的一些应用。比如说像这个例子，大家可以看到这个视频和刚刚的那个视频差不太多，但是背景可以看到像一幅油画一样。这实际上就是利用了干网络，配合我们其他的一些深度学习的技术，然后把背景全部换成了一种油画的风格。当然除了换成油画的风格外，我们还可以把它换成中国化的风格，比如像这个。甚至是换成铅笔画的风格，比如像这样。

那么为什么人工智能的潮流再次到来呢？可以说这一波的人工智能和前两波的人工智能热潮还是有些不一样的。这波的人工智能大家都说是由大数据和超算来驱动的。但实际上不仅仅是有了大数据，有了超算，还有我们这些非常厉害的人工智能的算法。当然更重要的是，我们有来自方方面面的需要。目前的这些人工智能的算法实际上相对于过去很多年，从理论的角度上来说，实际上它的进展并不是那么跨越性的。那么为什么这一轮的人工智能能够产生这么多的影响呢，主要原因确实是跟大数据和超算有相当的关系。原来的时候我们也有神经网络，我们也知道可以把神经网络不断地加深。原来比如说我们有多重，也可以把它从一层变到两层，变到三层甚至是更多层。但是那个时候我们没有大数据，我们用一层的神经网络。我们都知道，这种神经网络理论上可以估计任何形式的分布。那么这样的话，你在不断的增加各种各样的隐层已经没有必要了。而且那个时候，数据力有限，计算能力的不足，也导致大家不会吧网络变得很深。然后就用这种三层的神经网络就能够达到很多我们需要的这些要求。但是它还会产生另外一个困惑，就是说这样一个三层的神经网络，能够拟合任何形式的分布。什么意思呢？就是说它可以很容易的过拟合到某一个输入的数据上。那我们都知道过拟合不是一个很好的事情，所以说如何有效地减少过拟合，后来大家就转移到了统计学习理论上，然后用这种凸模型，因为它保证是一个唯一的求解，所以说它能够有一个非常好的solution。但这个话就先不说了，有点远了。那时候还有一个制约实际上就是计算能力上的不足。那时候我们计算机的资源是非常有限的，当你有了这样的数据之后，你的模型如果过于复杂，这个优化的过程是非常困难的，所以说它是很难去实现这种多层网络的优化。尤其到了现在这个阶段，不仅仅是我们有了这些行业的需要，更重要的是我们有各种各样先进的传感器设备，这种非常高精度的传感器设备，这样的话我们可以有效地去感知环境的这些参数。利用这些参数，配合我们的智能算法，就能够达到有效地对环境的理解和感知。

那么刚才我们谈了人工智能实际上我们所关心的主要是四个方面，就是perceiving、learning、reasoning和behaving。现在呢我们就先来简单的介绍一下perceiving。Perceiving包含的功能是非常多的，有检测、跟踪、特征点的跟踪、特征点的检测、物体的检测、物体的跟踪。还有很多其他的相关的一些方面，包括图像质量评估和视频的质量评估等等。那么我们先来说一下物体检测。可以看一下这是现代物体检测的一个基本框架。比如说这是一张图像，这里面有两只鸟，那我们物体检测的目标是什么呢？就是把这两只鸟检测出来，实际上就是要画两个框，把这两只鸟都框住。我先说一下传统的方式是怎么做的。刚开始的时候我们展示了一张图片，就是检测这些相关的人脸对吧。那么在检测人脸的时候我们是怎么做的？实际上就是，我们用一些非常小的框，尺寸比如说可能从11×11开始，一直变化到21×21，间隔是2，11×11、13×13，15×15等等，一直变化到21×21，或者当然你也可以变化到更大，取决于你想检测出来多大的人脸。那么在这样的检测过程中，我们可以把这样的小检测框从图像的左上角然后逐像素地开始往后挪。每挪一次实际上就产生一个blob。这么一个blob实际上就是我不知道这个区域是一张脸还是不是一个人脸，我就把这个区域丢到一个人脸的分类器里去，然后来判断这是否是一张脸。那么这个意思是什么呢？就是说我们要训练一个非常强大的分类器，对于任何一个小的patch或者blob来说，我们要能够精确地说出这一个patch或者blob是一张脸还是不是一张脸。这样的挪动过程中，我们会产生多少个框呢？可能根据图像的大小，会产生数百万、数千万甚至是数亿的这样的一些框。这时候你要把这些框丢到后续的分类器去分类，如果说你的分类器非常复杂的话，整个时间周期是非常长的。比如说检测一张人脸，当你的图像比较大的时候，你可能需要几分钟的时间。这样的话对于我们实际的需要来说，是完全达不到我们的实际需要的。我们需要一张图像能够在1/24秒，甚至是更快的时间内，能够把它处理完。所以说这样的方式就达不到我们实时的需求。那么怎么去处理呢？我们可以通过proposal network。Proposal network实际上就是说这里面有可能有一个区域是有一张脸，但是不会产生大量的这样的区域，只会产生少量的这样的区域，然后来丢给后续的分类器来做分类。这样的话可能我们就把原来的几亿个框减少到几千个框，就能够做到实时的标准。对于人脸是这样的，对于一般的物体检测就更是这样的需要。因为物体检测你所要面临的物体的种类非常多，有鸟，有动物，各种各样的动物，各种各样的物体。所以说当你训练这样一个复杂的分类器的时候，它的这种时间开窗就非常的庞大。目前的做法是什么样呢？是先用一个backbone network来抽取特征，然后输入到FPA网络中来看哪些区域有可能是我们要检测的物体，然后再把它同时分类出来。

检测完后，下面要做的事情就是跟踪。实际上这是一些简单的单目标跟踪的实验结果。我们可以看到，目前来说用深度学习来做单目标跟踪已经不是一个很大的问题。单目标跟踪中其实会遇到很多问题，比如说像图像的集合变换，光照的变换，物体形状的变换等等，都会导致跟踪变得非常的困难。但是到了多目标跟踪，这个任务可能就会变得更加的复杂。当两个物体这样的交错的时候，就会产生这种遮挡。当一个物体被遮挡之后，从被遮挡再出来的时候，很有可能就会把这个物体当做另外一个物体，这个对我们来说我们不希望是这样的。我们希望知道的是，这个物体虽然被遮挡了之后，但是我们希望它还是同样的原来的物体。所以说多目标跟踪就是一个更为复杂的问题。当我们有了这种很有效的多目标跟踪的算法之后，那我们就能够有效地去做球场运动员的行为的分析，去理解他们在球场的performance。

在perceiving的过程中，还有一个非常关键的任务，就是多重恢复。就是说我如何从单张照片中恢复图像的每一个像素的深度信息。这个听起来很神奇，大家直觉上的感觉是这个事情很困难。确实很困难，因为从理论上来说，这个问题是一个病态问题。什么是病态问题呢？如果大家学过一点简单的线性代数的知识就都知道，比如说我现在有三个位置变量X、Y、Z。但是我只有两个线性独立的方程组。这个时候我想要你把这三个变量求解出来，这个不可能，因为你有无数种可能性。实际上对于图像也是这样的，比如说在三维层面中有这样的一条曲线。经过投影之后，这条曲线投影在一个平面上之后就编程了一条直线。那我再问你这条直线在原来的三维空间中是一条直线还是一条曲线。这个时候你是不知道的，因为你不知道它的深度信息，所以你是不知道的。从这个角度来说，从单张彩色照片中恢复深度信息似乎是不可能的。可是，大家看这样的一张图像，我问一下在这张图像上，这个黑衣服男子的高度在图像上大概比如说是10厘米，那我现在问你一个问题，你相不相信一个成年男子他的物理身高是10厘米？你不相信。那么你会认为这个成年男子的身高大概是多少呢？大概是在1.75米到1.80米左右这个范围内。那我同时也问你，你相不相信一棵树在照片中的高度可能大概就是15厘米？同时你也不相信。所以说这张图像里面，它carry了非常多的这种semantic information，而这些semantic information比如说像人的身高，人的阴影shadow，这些树的高度，这些人和人之间的距离，包括各种各样的信息。这些信息实际上就可以告诉你这张图像上的某一个像素它大概距离摄像机有多远，也就是它的深度是多少。

那么过去在深度学习之前我们是如何做这个东西的？在深度学习之前，通常来说我们要在每一个像素上抽取图像的特征，比如像SIFT，还有各种各样我们认为设定的特征。然后有了这些人为设定的特征之后，我们把它拼在一起，放到一个概率图模型里，比如说马尔科夫场里面，就可以去估计它的深度，然后因为我们有对照数据，就可以去回归这个深度。回归出来这个深度之后，我们就弄好了这样的一个马尔可夫场。有了这样一个训练好的概率模型之后，来了一张新的图像之后我们就可以去估计它的深度了。但是这个效果就不是特别的理想，误差很大。

因此，我们就可以引入深度学习。现在深度学习大家都知道，在transform complexation的每一个具体的任务。同时我们也可以用深度学习来transform molecular recovery。那怎么做呢？我们就可以先利用一个简单的抽取网络，然后结合一个最简单的比如说soft max，就可以来解决这样的一个问题。但是直接去求解这样的问题之后，我们发现直接地回归效果并不是特别的理想，虽然说比用传统的马尔可夫随机场要好，但它还不是特别的理想。这样的话就需要我们本身去理解这样的一个问题，然后设计更好地特征提取的方式，设计更好的loss layer损失层，损失函数，然后来求取这个信息，就能得到更好地一个效果。比如说我们可以把这样的一个模型应用到辅助驾驶系统中，我们就能够有效地去估计前行车辆和你驾驶的车辆之间的距离，你也能够估计出来道路的位置等等。

刚才我们看到了pose tracking，不用深度学习的pose tracking的效果以及可以看到。那如果使用深度学习会得到什么样的效果？我们可以得到这样的一个效果，除了这样一种跳舞的视频，还可以有一些更为复杂的街舞的视频，我们都可以有效地去跟踪人的pose。这样的话我们不仅仅能够track篮球场上、足球场上每一个球员的位置，同时还能够去理解他们的行为。

人脸识别可能大家觉得已经不算是一个非常陌生的话题了，像我们现在有的商汤科技也好，康氏科技也好，等等这些公司都在人脸识别上取得非常好的效果。在2016年，我们也参加了NIST的PaSC point and shooting challenge，我们也取得了非常好的效果。这个video是我们在悉尼拍摄的，并不是比赛的视频。我们可以看一下人脸识别现在大概可以做到什么样的效果。比如说这条红色的线，就是我们系统的performance，这条黑色的线，上面有些点，这条线是单个人的performance。我们可以看到红色的线已经超过了单个人的performance。然后我们还可以再看这条黑色的线，跟红色的线很接近的这条黑色的线，是一组人的performance，它实际上和我们计算机的performance就差不太多了。这个过程是什么样呢？首先第一点我们要做人脸的检测，人脸检测完了以后要做特征点的检测，特征点的检测完了以后要做一下人脸质量的评估、质量的提升。然后用我们获取到的深度学习的算法，就能够有效地去做人脸的识别。当时比赛的组委会发现现在算法的效果确实非常不错了，如果说我们找一些非常极端的情况，到底它的效果是什么样的。那它的效果是这样的，比如说还是这是我们系统的performance，这个是单个人的performance，这个是一组人的performance。我们可以看到这个算法虽然说现在相对于单个人来说已经取得了很好的效果，但是对于一组人来说它还有一定的差距。这并不意味着目前人脸识别的算法放到任何地方都能够比人效果好，但是对于一个特定的问题来说，计算机人脸识别的效果已经确实超过了人类的效果。

刚才我们展示了很多非常有意思的应用，但是实际上这里面的一切都取决于你输入的这些图像或者视频它的质量。如果图像或者视频的质量效果变得比较差，那么他就会产生很多的问题。所以说第一步你要知道你输入的图像或者视频的质量是一个高质量的还是低质量的，你要有一个很好的深度学习的算法，来判断图像的质量。如果当你知道图像的质量不好的时候，你要知道图像的质量是由于什么变得不好的，比如说噪声。那是不是也有一个深度学习的算法，把这个噪声去掉。再比如说有blur，有模糊，是不是也有一个算法，能够帮你把模糊也去掉，这样的话你就能够得到高清晰的这种图像。在比如说雾，早上的时候会有雾，如果你获取到的图像的质量或者视频的质量不好，是不是有什么简单的方法，用深度学习，也能够把雾带来的影响在一定程度上去掉。再比如说当我们把摄像机放到水里面去拍摄水下的照片的时候，会有湍流的问题。如何去解决湍流的问题，也是非常有意思。

今天我们的手机也好，摄像机也好，它们的分辨率都非常高了，能够获取到非常高清晰的图像或者视频。但是如果一个物体距离你的摄像机比较远的时候，实际上这个物体的resolution还是非常小的。那是不是有什么办法能够把这个resolution也增加一下。比如说我们用简单的方法来做一下resolution的improvement，得到的效果是这样的。如果说我们用深度学习的算法，那我们就可以得到这样的一个效果，是不是就会好很多。

人除了perceiving的能力之外呢，还有很好的学习的功能，就是learning。Learning实际上牵扯的面就非常的广泛了。我这里简单介绍一下我们最近做的一些非常简单的工作。比如说第一个工作，我们先说一下near separable NMF，也就是近似可分的非负矩阵分解。那什么意思呢？首先我们先谈一下非负矩阵分解。机器学习算法实际上就是一些各种各样的基本的数据算法，非负矩阵分解就是说我有一个矩阵，每一个元素都是大于等于零的。这时候我就希望我分解出来的基矩阵和我的表达矩阵或者说是系数矩阵都是非负的。这个就叫做非负矩阵分解法。我们都知道非负矩阵本身是一个病态问题，并且是一个NB hard problem。这个时候是不是当我们加上一些假设之后，这个问题就变得有很好的性质，就变成了一个凸问题，有唯一解。实际上就算是加上可分离的假设。可分离假设或者又叫做自表达假设，什么意思呢？比如说我们在二维空间中有一个点，如果所有的点都分布在一个凸闭包里，那么这个凸闭包里的数据就具有自表达的性质。就是说对于这样的数据，如果说我们能够把它的这些anchors，这些脚点都检测出来，那么有了这些点之后，我们用这些点作为它的基向量，作为它的基。那么任何一个多边形里面的点都能够被这些脚点线性表达。就是说所有的内点实际上都可以用其他一些点做一个线性组合把它表达出来，并且组合系数都是非负的，这样就满足我们的意思了。所以说对于这样的问题来说，什么叫做自表达，就是数据本身就可以表达数据本身。你再不需要引入其他额外的数据就能够表征这些数据。

大家如果做过一点计算几何，大家都知道，这样的问题是比较困难的一个问题。对二维空间来说，这个多边形实际上是比较简单的，你可以用线性规划的方式逐点扫描，测试每一个点，看它是一个anchor还是inner point。但是如果说对于三维的问题，或者对于更高维的问题，这个D3代价上升的是非常快的。很容易你会发现，你找的这个解它的计算的复杂度非常的高。是不是有什么很简单的办法能够帮助我们解决这个问题呢？也可以有。这个使我们2013年做的一个工作。还是比如说多边形。比如说我们现在随便找一条线，在空间中随机画一条线，然后我们把所有的点往这条线上投影。投影完后我们有两个发现。第一个是在这条随机投影的线上，也有两个外点，一个红色的，一个紫色的，这两个外点一定是原来多边形的anchor。我们也有原来的这些蓝色的内点，经过投影到了这条线上之后它依然是内点。这是我们得到的两个结果。这样的两个结果实际上就告诉了我们，在空间中我们不断地做这样的投影，随机投影做很多很多次，然后我们只要找到这些frequent anchors就行了。如果说在二维空间中它是一个frequent anchor，那实际上在原来的高维空间中它也是一个frequent anchor，并且能够从数学的理论上完全的证明这一点。

因为时间的问题我跳一下。这里我先给大家回忆一个小故事。大家应该都知道盲人摸象的故事。盲人摸象的故事就告诉了我们这样一件事情，这些盲人因为摸到大象不同的部分，所以最后得到一个结论，大象像矛、像扇子、像一堵墙、像一棵树等等这些结论。实际上原因就是说因为每一个盲人摸到了大象不同的位置。听上去这个事情非常的可笑，但实际上我们人在做决策的时候，面临的情况跟这些盲人其实是一样的。我们也会做出很多错误的决定，因为我们所接触到的信息是不完整的，或者说是有限的。或者说我们接触到很多信息，我们没有办法把这些信息有效地整合起来，这样的话就会导致我们在做判断的时候产生一些错误。比如说我现在手里有一个东西，我对它照一张相，我不告诉你这个东西是什么，那我现在问你这是什么物体。如果我问这样一个问题，对于你来说回答这样的一个问题非常的困难。那好，没关系，我可以多照几张相，我可以照非常多的像相，然后给你看。现在你是不是就能够才出来这是个什么物体了，实际上就是一个长条凳。所以说当我们在观测这个物体的时候，实际上当我们的观测值是有限的时候，你对于这个事物的理解是不完整的。但是当你的观测很多很多的时候，你对于这个事物的理解就是完整的。所以当我们在做这个事情的时候，实际上我们可以假设，有一个oracle space，或者说有一个上帝视角。在这个上帝视角里，我们对于物体的观测都是完整的。实际中我们有各种各样的传感器，而每一个传感器都是对oracle space的一个线性或非线性的投影。而在这个投影空间里，你获取到这个物体的信息是非常有限的。现在的问题就是，当你有很多很多传感器的时候，你也有很多linear或者nonlinear 的oracle space的一个projection的时候，你如何把这些projections integrate到一起来recover 这个oracle space。我们可以从理论上证明出来，当我们有足够的这些projections的时候，我们有很高的概率能够recover 这个oracle space，因此能够解决我们所有这些问题。

过去我们实际上是小数据时代，或者说没有谈到大数据的时候，我们的数据是非常有限的，或者说数据都是非常珍贵的。这个时候我们去标定这些数据，然后去训练特殊的学习算法的时候，我们希望能够有非常准确的一个标定。我们都去找专家来标定，因为我们数据都很少，专家可以帮我们标。但是现在我们是大数据时代了，数据非常的多，我们去解决数据的标定就非常的困难。那怎么办呢？实际上我们就把数据众包出去。有很多数据标注的公司，我们可以把这些数据分享出去，当别人来帮我们标注这些数据的时候，我们付他一点点劳务成本就能够解决数据标注的问题。可很遗憾的是，我们收集回来的这些标签并不都是非常正确的，有的人标的对，有的人标的不对。有的人标注可能就是为了赚钱，网上点鼠标的时候点的很快，也不管是对还是错。有的人标注过程中可能标注的也很认真，但是他对这个问题的理解和你的理解不一样，所以说他也会标错。有的人可能是标注的过程中比较辛苦，标着标着标累了就标错了。你获取到的信息是这样的。但是你拿到这样的数据时，你去建你的分类器的时候，他就会有很多的困难。这个问题在于你如何去找到一个有效的方法来解决这个问题。当然你可以花更多的钱找更多的人来标，重复标注是一种方法。可是这个东西成本的上升非常快。那么是不是在理论上有什么方法，还是用这个数据，我们能够找到一个sample reading的方式，或者是一些其他的方式，我们还是能够找到正确的分类器。实际理论上告诉我们在一定的假设条件下，我们还是有机会能够recover这样的一个分类器。

时间的问题我就再跳一下。简单介绍一下深度学习网络。我们都知道深度学习网络现在是越来越深，大家在做这个学习网络的时候恨不得是几十层、上百层甚至是几百层，甚至有的人要做上千层这种网络，然后来达到一个很好的学习的效果。但是随着网络层数的加深，这些网络的大小是越来越大，比如说AlexNet的大小是232兆，再比如说VGG，16层的网络572兆，再比如说Rose-net 50层的时候是95兆。当然网络的结构不一样，导致它内存的开销，存储空间的开销也是不一样的。但是设想一个问题，我们现在这些上百兆甚至几百兆的网络，只能完成一个非常单一的功能。我们手机的内存是非常有限的，你愿不愿意在你的手机上或者是在你的内置系统里用这么大的存储空间去存储一个完成单一功能的网络，比如说仅仅帮你标注一下哪里是人脸，你愿不愿意？那你肯定是不太愿意。你希望这个网络又小又好用，又能够解决我所需要的这些问题。这实际上就是深度学习网络压缩的问题。我们通过引入DCT变换，可以有效地压缩神经网络。实际上我们现在有一些更好压缩神经网络的技术，比如说用遗传算法，用拆除共享的滤波器，都可以把神经网络压缩的更好。用DCT变换这样的方法压缩之后，572兆的网络就变成了12.4兆，95兆的网络就变成了7.9兆。压缩并不意味着我们会把我们网络的性能变差，而只是说把网络的尺寸变小。并且有时候网络的效果不仅是没有变差，反而是变好了。这是为什么呢？

大家都知道，深度学习网络现在是越来越深，大家都有一个问题，为什么要深，为什么不用浅层的网络来解决这个问题，为什么要用深层的网络来解决这个问题？这实际上就牵扯到深度学习网络基础理论的问题。我们的测试误差实际上等于训练误差加上泛化误差。大家都有一个基本的认识，刚开始我就说到，我们用MRP这个三层有一个隐层的神经网络的时候，我们就可以去拟合任意形式的分布。既然是这样，我们为什么非要整一个100层的网络来做同样的这些事情，我们是不是就用这个三层网络就可以了？当我们做实验时候发现，当我们用三层网络的时候确实可以得到一个很好的训练误差。我们用100层网络或者几十层网络做同样的事情的时候，我们要付出很多的代价才能够得到同样的训练误差这样的结果，或者是跟它差不多这样的一个结果。那既然是这样的情况，我们训练的如此之复杂，为什么我们还要把这个网络变得很深？实际上我们发现，当我们用浅层的这个三层神经网络去做这件事情的时候，我们的测试不好。再举个简单的例子，我们都知道现在大家考英语的能力非常强，我记得在我的那个时代读书的时候，我的很多同学考美国的GRE考试，他甚至能考2400分。2400就是满分。数学考满分大家都能理解，逻辑考满分大家也能理解，但是你想想你的语文考试谁能考满分？这个事情是非常困难的。但是这些考满分的学生到了美国之后，是不是就意味着他的英语水平远远超过了那些考不了满分，比如只能考2100的这些美国当地的native speakers呢？这个其实好像也不是，可是为什么是这样呢？这个实际上就是我们的学生很适合考GRE，但是对英文的掌握实际上并没有达到native speakers的水平。这实际上就是说我们在训练集上过拟合了。怎么样去解决泛化的问题，这是个关键。深度学习实际上，我们可以证明出来的就是，当随着网络层数变深的时候，我们深度学习的泛化误差，或者说是它的generalization error实际上是呈指数衰减的。当你额网络层数更深的时候，你的网络的泛化能力越强。所以这就回答了我们刚才的问题，你的网络越深越好，而不是越浅越好。虽然说大家都可以去拟合这个分布，但是越深越好。可是刚才我也说了一个问题，当你网络层数变深的时候，你的训练就变得非常的困难。所以说测试误差就等于训练误差加上泛化误差。当你能够找到一个很好的学习算法的时候，能够保证你的训练误差足够的小，同时能够把你的网络变得非常的深，这时候就能达到一个非常好的效果。这也就解释出来了我们为什么要去做深的神经网络，而不是去做浅的神经网络。随着网络层数的加深，它的困难就在于你如何保证你的学习算法能够有效地收敛到一个局部极小值上，保证你的训练误差足够的小，这样的话你的泛化误差也很小，所以它就能达到这样一个很好的效果。

再来说一下reasoning和behaving。reasoning和behaving实际上牵扯到的面就非常广泛了。比如说我们举一些跟机器世界相关的应用的例子。比如说这样的一些图像，有了这样的图像之后，人来描述这张图像是非常容易的。比如说这张图，这就是一个人骑着一匹马在赛马。对于人来说完成这样的任务非常容易，那我们如何利用我们已有的这些数据，利用我们已有的这些计算能力和智能算法，让计算机也能做同样的事情？这个我们就叫做image caption或者是video caption，这就是一个很复杂的问题。当然目前的算法已经能够达到这样的一些效果，并且我们不仅仅能够给出很短的描述，还能够给出很多很细节的描述。再比如说这样的一些短视频，网上有很多这样的短视频。所以说你要去理解这些视频的内容，知道这些视频的内容应该怎么去归类，这样的话帮助人去找到些特定的视频。那实际上也是一样的，我们要抽取各种各样的深度学习的特征，或者是一些传统的特征。然后我们要找到一种有效的方法把这些不同类型的特征结合起来，这样的话我们就能够分析出来这些视频是做什么的。第一个比如说是拳击，第二个比如说是洗脸，第三个比如说是桌面足球。有了这样的一个很好的架构之后，我们就能够有效的去做视频里面事件的检测、事件的分类。

再比如说这样的一个问题，回答问题，就是说，有一张图像，然后基于这张图像我来问你一个问题，然后你来做回答。人当然可以很有效地完成这样的事情，但是对于计算机来说该怎么样去做这样的事情？比如说这张图像，我们都可以看到这张图像有一个女孩子，放了两个香蕉在自己的嘴唇上。问题是她的胡子是什么做的。答案很简单，香蕉。对于计算机来说该怎么去做这样的事情呢？实际上就是我们要去抽取图像上或者文本上的attention，就像这个动画显示的一样。找到这些attention region之后，把这些attention region和你的问题match起来，就能够有效地回答这样的问题。

除了做图像问答之后，我们还可以做图像的对话。比如说这张图像。那我们可以问很多很多的问题，比如说这个女孩子戴没戴帽子，比如说这里面有没有什么动物，动物的颜色是什么。我们可以问很多很多的问题。在这样的对话过程中实际上有一个很大的问题，就是一个指代问题。比如说这个问题，Is the women wearing a hat？答案是Yes。然后再接着问一个问题，What color is it？这个it实际上我们大家都知道它指的是hat，但是你如何让计算机知道这个it指的是这个hat这是一个很大的问题。那么在图像问答的过程中，对于这个指代信息的理解就非常的关键了。因此我们要训练这种有效的深度神经网络，去理解图像和句子中的这些指代关系，去理解它们的逻辑。

在给大家看一个例子。我们现在的机器人是怎样和人交互的呢？现代的机器人和人的交互实际上是通过编写程序然后设定参数规定机器人该怎么去做运动。我们实际的期望是什么呢？我们都知道现在的机器人都装了很多各种各样的传感器，比如说摄像机。那么既然有了摄像机，实际上机器人是能够看到我们人在做什么的。那问题就在于是不是未来有一天，我们人可以通过视教学习的方式让机器人达到学习人的行为和理解人的行为，然后和人做到这种有效的交互。这也是非常关键的一个问题。

这里到最后了，我给大家再展示一张图像。那么这张图像大家能够理解他们都在（干什么）。我现在再问一个问题，当然现在我不问刚开始我问的那个问题，也是一张照片里面有很多人，我问你有多少人，你可能要数一个小时才能够告诉我这里面有多少人。现在这张图我不问你这里有多少人了，我现在问你。这些人在看比赛对吧，非常容易回答出来，你瞬间就能告诉我在看比赛。那同样这样的问题我如果现在问计算机，这张图像这些人在干什么，它不知道。我再问，第一张图像的人在干什么。他们就是在照相，就是在照一张集体照。所以说对于人来说，我们能够立刻区分出来这两张图像的semantic是完全不一样的。那么对于计算机来说，要想做到这一点，我们就需要标注大量的数据，我们就要从网上扒大量的数据。机器人的数据，看比赛的数据，然后把它丢给计算机，丢给神经系统网络，然后让它去训练。训练好以后我们就可以做这样的事情。那么这就牵扯到一个问题了，这是不是我们期待的人工智能？这不是我们所期待的人工智能。这张照片中包含很多信息，表情的信息，POSE的信息，这些人的眼睛看的位置的信息。这些信息我们都能够检测到。但是这些信息我们人看到后，我们能够有效地去判断这些人在看比赛，那些人是在照相。但计算机却不行。是否有一天我们能够通过更强大的概率推理方式、因果推理方式来有效地去理解图像、有效地去理解数据，这样能够帮助我们更有效地去完成一些复杂的任务。谢谢大家！

对话部分：

主持人：非常感谢陶教授的精彩演讲，让我们对AI时代的发展进程有了更多的了解。让我们再一次掌声感谢陶教授。在机器人领域，这次我们也非常荣幸地请到了一位知名的专家，就是来自清华大学的赵明国教授。赵教授是清华大学自动化系副教授，担任机器人控制实验室主任，主要从事仿人机器人控制及无人驾驶自行车的研究工作，获得国家发明专利十余项，完成了国内首台无人驾驶自行车的研制。接下来的圆桌对话环节我们就交给陶大程教授和赵明国教授，也请《环球科学》杂志的执行主编褚波老师来为我们主持。有请！

褚波：非常感谢大家在周末的上午来参加我们的讲座，首先也非常感谢陶教授专门从澳大利亚回来，到北京来专程为我们做这场精彩的关于人工智能进展的讲座，也很感谢赵教授今天赶过来。刚刚听了陶教授的演讲，相信大家对人工智能的进展已经有了一个大概的了解。其实在我们生活中，人工智能也有非常多的应用，比如手机上的语音助手，我们通过高铁安检时的人脸识别，还有很多比如网上购物时候的智能推荐，其实都是人工智能算法的一种应用。出了这几个例子之外，我相信还有很多应用我们都接触的到，但是作为人工智能领域另外的一个重要分支，机器人领域，我相信我们接触的还不够多，从这个角度来看，我感觉机器人技术的发展跟人工智能算法方面的发展相比有一个相对的滞后。所以第一个问题我想问一下赵教授，您怎么看待机器人技术的发展有这样一个相对滞后的问题，您认为造成这种滞后的原因是什么，以及通向更好的机器人技术有哪些障碍需要解决？

赵明国：机器人相对发展的比较缓慢，因为机器人涉及到很多硬件上的事情。硬件的研发周期要比软件要长很多，所以相对来讲周期要慢很多。另外一个硬件机器学习，大家知道在计算机里面去学一个事情可能很快，增加更多的计算资源可以很快把它学完。但实际中比如“摔倒，机器人自己爬起来”，在计算机里面一两个小时可以训练出一个动作，但在实物机器人中不可以这样，机器人可能会摔坏，或者各种问题，实际执行时间也不是这么短，所以这个机器人整个的技术发展相对要缓慢一点。还有它的自然规律，它和算法的自然规律不是太一致。它要有一个偏重物理的规律。所以这个时候我觉得发展真正的瓶颈可能在于大家搞机电或者控制这边可以把自己的工作做好，但是真正的困难点我觉得是怎么和AI去结合。这两个就像两个世界的东西，要在一个地方去融合的话它们共同的坐标系是什么，结合在一起的点在什么地方，可能会出现很大很大的问题，这也是需要重点解决的问题。所以机器人真正变成纯粹的智能机器人去应用，我觉得很大的困难点，第一点就是视觉和和运动的融合，这两个如果能合而为一，变得和人一样自然我觉得是非常大的一个难点。如果在这一点上有新的理论新的方法能够很快突破，就能产生比较大的进步。

褚波：目前世界上有比较先进的机器人公司，比如波士顿动力，赵教授的研究团队，还有浙大的一些研究团队，都有研发一些，至少看起来比较先进的机器人，但是实际上它们表现起来还是比较笨拙的。我想问一下赵教授，如果想让它们像我们人类或者自然动物那样灵活自如行动的话，您觉得这个有可能实现吗？如果能实现的话大概还需要多长时间？

赵明国：这个问题非常难回答。我们可以把这问题这样去理解，就是任何一个机器人，或者任何一个人工智能在某一方面的表现只要能定义出来，它很快就能超过人。我觉得这是我们做人工智能机器人的一个目的，就是让机器人的某个能力能够超过人，这肯定是我们的目标。但是人是一个更综合性的，在多个能力上的综合表现，尤其有些特定任务是综合能力的表现。所以让机器人在综合能力上超过人类，目前还没有特别好的结局办法。比如说跑和跳，只要指定出来，我觉得世界范围内科学家总能找到一个办法让机器来超过人。但要是换一个题目，那么机器就变得很弱了，人就变的很强了。所以人是经过几百万年上千万年进化出来的，在综合能力和更复杂的应对能力（方面要更强大），而且在智能方面更多是解决问题能力上面，机器更多是在特定问题上面。人定义好了特定问题，机器通过各种仿生办法去模仿人，去解决，它能把效率提的更高。但是在解决问题能力上我觉得还是后面要解决的方向。还达不到人类的水平，还差的很远呢。

褚波：好，谢谢。昨天在science杂志上也发表一篇重要的论文，论文的作者是研发阿尔法go的团队deep mind，他们的论文探讨了一个新的程序，阿尔法zero的相关算法。阿尔法zero大家可能听说过，它是从零还是学习，学会围棋、国际象棋还有日本将棋它分别打败了能够下其他三种棋类的人工智能程序，比如说之前很厉害的阿尔法go。从这个程度上说，阿尔法go在棋类领域上应该算是一个通用人工智能。而deep mind的创始人哈撒比斯他的目标也是创造一个通用人工智能。所谓的通用人工智能就是说它能够从零开始学习，学习各种任务，像人一样完成各种任务。所以第二个问题我想问陶教授：从目前来讲，虽然说人工智能算法已经有很大进步，人工算法和通用算法之间有多大距离？如果我们能够实现通用人工智能的话，您能不能给大家举几个例子，给大家描述一下通用人工智能是什么样子？

陶大程：这个问题还是挺难回答的。第一个我先说一下阿尔法zero。阿尔法zero是从零还是训练，也不需要人为棋谱。以前训练时候需要有大量的棋谱，现在阿尔法zero不需要人的棋谱，我们就能够从里面学到比赛的下期规则，甚至能比世界冠军下的更好。听上去还是实际操作都是非常困难的。肯定的一点就是阿尔法go 也好，阿尔法zero 也好，大家觉得人工智能的时代已经到来，而且大家也相信人工智能的到来能够解决很多问题，可能这些问题是我们过去想都不敢想的。但实际上换一个角度来说，下象棋或者下围棋或则下其他的棋或者打扑克，以前没有下过棋打过扑克，你已经是成年人了，你有很多经验知道很多事情怎么去做，你能够听懂别人跟你说的话，现在我告诉你规则是什么，你是不是立刻就可以上手跟别人下棋？可能棋下的不好，打牌打的不好，“臭棋篓子”或者打牌打的很幼稚，但是你是不是立刻就会了。这需要找专业人士训练你半年时间才能玩这个游戏吗？再比如说打超级玛丽这个游戏，你以前也没有打过超级玛丽，现在告诉你这个游戏就是顶更多的蘑菇，得更多的分，踩更多的坏蛋，你就能赚取更多的金币和credits，最后一路下来就通关了。你当时有训练过半个月一个月才能玩这个游戏吗？是不是上来就能玩，再经过几次简单的训练就可以了。当然计算机达到同样的目标还是很困难的，因为计算机的程序还相对是比较固化的，给一个规则去完成一个事情。但为什么下棋这个事情计算机就可以做到呢？不需要训练的情况下。我们现在也在做务监督的训练识别，别说超过人，超过有监督的算法都比较困难。因为目标不确定。但是下棋这件事情目标很确定，比如说下围棋这个事情就是占更多地盘，下象棋就是干掉对方的将军。所以对于目标是完全确定的事情来说，不管棋盘多大，规则多复杂，只要事情是有规则的、目标是明确的事情，这个事情对计算机来说就好办。因为我们可以把它变成一个搜索问题，我就是搜索最优目标。但问题在于搜索目标太过于庞大，不能说下一步棋等一年，这个时间等不了，我希望瞬间就能完成。那现在的问题就是如何完成瞬间搜索，尽快找到一个答案，不一定完美，但相对完美的答案。这就涉及另一个问题，为什么计算机下棋比人好？我们下棋和专业棋手比差在哪里？因为你下棋只能盯着眼前的这个棋盘，你能想到你这步棋下完之后对方会下什么棋吗？可能你也能想到。但我再问一个问题，你下完这步棋对方会下哪步棋，对再下完下一步棋对方会下什么棋，这样不断地推演下去。你能把它推演一遍吗？你跟专业棋手的最大区别是，你没有推演能力，或者只有一步两步，但专业棋手可能五步十步。但计算机可以推演到最后一步。我只要有一个强大的算法就可以了。所以当棋盘有一个固定尺寸，当目标和规则是明确的时候，计算机就可以把它转换成一个有效的搜索问题，那么问题就可解了。那么同样问题，图像标注问题，在一个图像里面又一个小兔子，小兔子可以是手画的小兔子，可以是铅笔画，可以是油画或者中国画，甚至可以是实景照片里面的小兔子抠出来放在图像上面。让计算机做这件事情难度就非常大。如果没有大量的标注和训练是很难完成的。从今天的人工智能到未来的通用智能，距离还是挺远的。不是说今天的人工智能就没有用，实际上任何一种人工智能都能够帮我们解决一些问题。比如说我们现在用的智能手机，在京东上买了一个东西，可能京东就可以立刻帮你推荐你可能还需要什么东西。这样的人工智能也可以帮人们解决问题。比如滴滴打车等软件，工作中使用的工具，实际上它都带有专属人工智能，都能够改变生活，提高效率。那么通用人工智能，从我的理解来说，人工智能的算法能够像人一样聪明，不需要特殊复杂的训练，或者哪怕需要这种训练但可以拿来做任何事情。可以拿来下象棋或围棋，拿来打超级玛丽，拿来解决数学问题、标注图像等等，但这件事情还是很不容易的。虽然说有这样一天到来，但我个人感觉还是非常困难的。

褚波：现在人工智能非常火，所以现在各个国家都在推动编程教育，把它变成一个非常重要的环节。美国甚至把编程教育提高到一个国家战略高度。我想问一下两位教授，您们认为学习编程对学生有什么好处？能不能给这些学生提供一个建议，怎么学习编程或者人工智能？

赵明国：我先来抛砖引玉一下。我们从小也开始编程了，读书时候也编程。编程肯定是对逻辑思维一个很好的训练，逻辑思维必须很严密，考虑问题必须清楚，调错误时候更可以锻炼思维。对小朋友们来说，大家可以学习编程，它可以是一种逻辑思维训练和工程训练，也是一项很好的技能。但是编程不等于人工智能，差的很远，它只是一个实现手段和工具。人工智能需要编程，但不是划等号的。不要认为要搞人工智能就得从编程学习，只是十分之一或二十分之一的人是从编程走来的，还有很多是从数学走过来的。我觉得大家把编程当作一种思维训练还是挺好的，但不是说我学了编程就可以做机器人。大家在适当的年纪做适当的训练，编程的训练，尤其是数据结构的训练，是很好的。

陶大程：非常同意赵老师说的这个。编程是实现人工智能的必要非充分条件，就是你不会编程肯定不能实现人工智能相关的功能，因为包括我展示的这些功能，包括跟机器人的交互等，每一个展示都包括大量的程序设计。从我个人来讲，程序设计是对我们思维的锻炼，是思维的体操，让我们的思维变的更加缜密和严谨，让我们的思维有序地去做某些事情。这样的一种有序不是说对人工智能有什么帮助，它在教育中起到的作用是培养我们做事情的逻辑习惯。比如现在小朋友编的是什么程序呢，小朋友们字还不会写的时候去编一个非常复杂的程序，但它可以通过去摆程序的组合块去实现一个过程，比如小兔子怎么过河。这可以帮他去理解这个事情，去建立自己的思维结构。人在学习的过程中就是不断在提升我们思考问题的能力和解决问题的能力。所以我觉得编程在于，帮助我们提升我们逻辑思维能力，学编程并不意味着我们要牺牲掉学习基本的文化课程。基本文化课程还是非常重要的，在学习基本文化课程没有问题的情况下再去学习编程可能是更好的一个方式。

褚波：因为两位教授的研究方向偏算法、自动化这方面。如果有学生向你们咨询专业选择问题，你们会建议他们选择算法这一块还是机器人这一块呢？

陶大程：我觉得是兴趣。我们都说兴趣是最好的老师，其实不管干什么事情都是兴趣驱动。最理想的就是你能够从事的事情就是你的兴趣爱好，这样你就能做的非常有乐趣，并且你愿意花时间在这件事情上不断耕耘，也能够在这件事情上取得别人很难取得的成绩。因为你不仅仅是为了解决你的温饱问题，而是你喜欢做这个事情。所以说兴趣是关键。现在是人工智能热，未来时自动化热，或者是那方面热，我觉得都不是关键，而是你的兴趣是什么，这是关键。

赵明国：我非常同意陶教授的看法。大的方向应该定下来。大的方向应该是兴趣或者好奇心。但是落在第二层次，从专业角度这个问题很难回答是因为它涉及两个专业问题。机器人在某些定义里面是人工智能的一个分支，在某些方面又涉及很多专业交叉，它是在知识链最末端的学科，所以你在前面任何一个学科都可以过渡到机器人上面来。你完全可以从数学、物理、化学、材料等方面出发，决定你深度的可能是从这些基础学科上面来的。比如说篮球，你是业余打打篮球还是NBA、校队国家队打打篮球，这是不同的level，你在不同层次上得到的成就感和快乐的满足感也都是不一样的。所有我觉得你想取得更大的成就，或者到更高的level上去体会这些快乐的话，最开始阶段可以在基础学科上多花一些时间，而不必在终极学科上面。因为就像运动员一样，你想成为NBA运动员，但是你的运动能力达不到，也不会被选为NBA运动员。所以我觉得在兴趣的大方向下面，在能力培养方面偏向去基础学科。比如最基础的物理、数学、化学这方面。我觉得以前那句话说的很对，“学好数理化”所有问题都能解决嘛。

褚波：谢谢两位教授的回答，我们访谈环节到此结束。下面赵教授团队还会给大家带来一个有意思的环节，我们把时间交给罗茜老师。有请！

罗茜：Hello，给大家介绍一下，这位就是我们优必选公司研发的人形双足机器人Walker。它身高1米35，它是您的家庭陪护小管家，可以在室内完成全向行走，还可以像人类一样的找球和踢球。下面我们来一起看看它吧。

（机器人展示）

观众提问部分：

主持人：感谢几位嘉宾的分享，也谢谢赵老师的研发团队和小机器人Walker。请坐！下面是我们的互动时间，大家如果有问题想问两位教授，请举手示意，我们的工作人员会把麦克风递给您，请您在提问之前先说一下您的问题是向哪位教授提问。每位提问的观众我们都会有一份小礼品送给您。

观众1: 我想问问陶大程教授。我想问问比如在很多游戏里，都是人类控制电脑或者手机。将来会不会真的人工智能统治世界或者人类呢？

陶大程：我觉得这问题可能是大家都非常关心的一个问题。也就是现在说的这个起点理论。从目前人工智能的发展阶段来看，这一天还相当遥远。不管是阿尔法go 还是阿尔法zero，它都是完成一个特定任务，当目标明确、规则是定义好的时候，目前我们的算法是有机会，只是说有机会比人做的更好。但这些东西实际上都是人来设计的。是否有一天可以做到算法的自动演化，演化强大到一定程度，它能够做任何事情甚至控制人类，我觉得难度还非常之大。最简单我们把电拔了它就不行了。开个玩笑。可能到那一天，你想把电拔了它都不给你机会了。所以当然我们也会有担心人工智能的发展速度过快是否会导致其他一些问题，比如说公平性。是否说人工智能算法都是为少数人服务，而不是为大多数人服务的。我们人工智能算法发展是否更多是为比如说军方武器服务，它对社会有破坏性。或者我们算法已经产生的一些问题。比如一张照片中我们有一个人在厨房里面做饭，那我们的计算机很有可能把它认为成一个女人在厨房中做饭。这个事情对女人来说是不公平的，凭什么女人就要做饭。当然这对男人也是不公平的，也许这张照片中正好是一个男人在做饭，但你把这个功劳又给了女人。所以说这就产生了问题。由于算法精度不够产生的伦理道德问题，或者由于算法、数据训练的不充分导致的伦理道德问题。所以说现在搞人工智能的科学家也在考虑一个问题，就是如何从社会学、伦理道德问题出发来控制人工智能算法，来保证人工智能算法为人类服务而不是和人类竞争，来改善生活、提高生产力。我们要从正面角度影响人工智能，让人工智能为人类服务。谢谢你的问题。

观众2: 本来有三个问题，小朋友问了一个起点问题我就不问了，另外两个问题比较细节。一个是，赵教授和陶教授都可以回答。刚才提到计算机是一个交叉学科领域，最近我也在看有关大脑发育的一些问题，实际上人工智能或者机器人是一个仿生学，人工智能的发展的规律和一个婴儿学习的规律是完全相同的。感知——统计规律——推论——行为。那么我想问一下现在生物医学对人工智能和机器人的发展有什么影响，不知道两位教授有没有这方面的见解。第二个我想问赵教授，因为我看到您是国内首台无人驾驶自行车的研制者。在环球科学杂志中有一篇文章写道，现在无人驾驶汽车的一个缺陷就是没能够考虑到路上行驶的社交规则，它只是考虑了一些交通规则。请问对这个问题，目前有没有解决，关于我们在在开车时候人与人之间、车与车之间、驾驶员与驾驶员之间的这种社交规则影响的自行车或者交通行驶的交通互动有没有一些解决？

赵明国：我先来回答这个第二个问题。我们做这个无人驾驶自行车并不是为了解决交通问题，所以它和交通上面的无人驾驶车辆的很多事情不在一个范畴之内，我们更多解决的是技术问题。这些技术可以最终用在未来很多的一些交通工具或者其他的一些方向，只是大家生活中遇到的一些问题，比如物流、送餐这些问题，可以用机器人来解决，并不是无人驾驶自行车，它是一个载体，来做很多技术。汽车可能不能完全覆盖，比如最后一公里不完全好使，这有没有可能结合起来，需要很多技术，更多是来感知和规划这些层面。时代可能在不停发展，包括产生的社会问题、伦理问题，需要不断边走边看，边走边修改。不能能一下子就看到所有问题。我想绕回到第一个问题上，起点问题上来，就是大家可能过于担心，大家首先要清楚什么是起点问题，我不是很严格清楚起点问题的定义是什么，大家可能就是知道起点问题有很大威胁，会不会搞着搞着对人类有很大威胁。大家想想飞机的制造，一百多年前，飞机是上不了天的，你看现在不但坐飞机是家常便饭了，稍微远一点的地方大家都要坐飞机，人不但能坐飞机，而且能上月球。美国的火星车又一辆登录到火星上面。昨天我们发射了嫦娥4号，将会登陆到月球的背面。大家有误解，当下总在说阿尔法go，其实登月这个成就给我们的冲击力远远（超过它了）。上世纪60年代人类就登陆月球，并在上面留下脚印，产生一些行为。那个时代的技术比现在阿尔法go战胜围棋给我们带来的冲击力要大的多，大家看到现在又什么起点发生吗？大家想想原子弹、火药，而且原子弹可以把整个地球毁灭，而且陨石撞到地球，我们可以发射一个原子弹去把它炸掉。这种冲击力远远大于人工智能带来的冲击力。正常来讲大家不用担心这些事情，在一个有序的发展情况下大家一定可以找到办法来解决。当时设定的起点，但是随着时代发展，起点也在变，永远是一个极限，永远趋紧目标，所以大家不用那么担心。

陶大程：我来说一下其他学科对人工智能的影响。其实现在深度学习在一定程度上来说它跟脑科学有一点点程度的联系。它借鉴了比如注意力机制、深度神经网络，有多层的结构，它实际上因为大脑皮层有多层结构，所以它认为多层是好的，有一个堆积。再有注意力机制，实际上当人在看一个图像时候或者在看一个场景时候，实际上他有他的注意力机制，能够很快的检测到或者观察到他想关注的点上去。所以说能够加速人对环境的响应或者理解，帮助我们完成一些我们想要完成的任务。所以实际上脑科学的深入对于神经科学的深入实际上会回馈我们改善我们的一些算法，但并不是说脑科学中的每一个点都对我们很有用。但是脑科学的进步在一定程度上极大地推动人工智能的进展，帮助我们设计一个更为有效的算法，设计一些更为有效的机制，然后来改善我们现有模型的一些不足，帮助我们来理解到底应该怎么做这些事情。比如昨天我还和赵老师聊了一下人上楼梯的这个事情。比如说人上楼梯，很自然地就上去了，你有没有想过这个楼梯时20节还是25节，你有没有想过这个楼梯的高度是20厘米还是22里面，有没有想过这个楼梯时水泥的还是木头的，你也没有想过是吧。但是当你走楼梯时你第一脚踩上去的时候你就可以反应到这个楼梯我不能上，我会把它踩塌了。但是让机器人做这个事情的时候，其实每一步都是在精确的定标，精确的计算，他要去理解这个环境，所有这些东西都基于传感器和相关算法来帮助机器人来完成相关问题，所以机器人就显得比较笨拙，看起来就像总在犹豫什么，但其实它不是犹豫什么，是它还没算明白，它没算明白就不能进行下一步操作，否则它就会摔下里，或者踩坏了或者其他。包括路面，比如比较滑，它也怕摔倒，所以它在计算它是不是适合走这些地方，通过一些反馈信息。所以总的来说机器人也好人工智能也好，它需要不同学科的注入，来提高自身的完整性，来做的更好。谢谢！

观众2: 您好，我想请问二位，众所周知，机器人代替人工的好多工作现在已经成为趋势，包括初级的律师、会计师，包括美国的一些证券交易员。这个趋势您能不能帮我们详细地介绍一下，大约多长时间，像30岁或者像我这样40岁的人，他的能力就不再对社会有贡献了？谢谢。

赵明国：这个预测是比较困难的，但是这个困惑我也有。因为我最近接骚扰电话，我就怀疑这个电话是人工智能打的。因为当你接了电话它半天也不讲，当你要挂了电话时它又开始讲话，讲的前言不搭后语，还是挂掉就算了。这个时间非常难预测，我觉得最基本的问题，我想人工智能和机器人去代替人，这是其中最主要的一个应用，就是要把人解放出来。这个解放有两个非常明确的方向，一个就是重复性的，不需要太多人干的，人干的话会越来越无聊，一天打500个电话或者打1000个电话，打垃圾电话的人就会很无聊，所以这个工作就可以交给人工智能来做。这种疲劳性的工作，另一种就是极度危险的事情，不希望人来干，比如化学场景、救援救灾这些危险的工作，当然还有很多类似这两类方向的特定的一些方向。当然大家还有问有没有更高级的（可以机器人去做）。比如画画，大家其实很明白，机器人也可以去做。我非常不理解机器人去做古诗，机器人做古诗只能是一个大致匹配，我不太清楚它的探讨意义，我觉得从非常直接的意义上看没有什么意义，可以给大家看一下人工只能发展到什么水平了。机器人炒菜，大家看怎么理解炒菜，做盒饭可以，做五星级大厨那种炒菜（不太行）。如果没有精神层面或者艺术层面在里面，可能可以（炒菜），但也不太适合。所以大家方向不要偏，不是什么都可以让机器人去做，有两类，一种简单重复性劳动，机器人可以比人做的快，比人做的好，那就可以让机器人去做。但是智力型劳动、创造性活动，让机器人去做只是展示一下我们的能力到了什么水平了，大家可以简单的直观的看，和人做一个比较，但是这种不产生直接应用。因为真正应用的时候你可能对他的要求更高，所以他用不了。所以这个年限无法用统一的年限来衡量。因为现在给你打电话的就是就是人工客服，打骚扰电话的就是人工智能，现在已经在你身边发生了，只不过渗透得越来越深、越来越广而已。

陶大程：我非常认同赵老师说的，人工智能的发展已经越来越广了，但是他的应用来说还是比较固定的。能够帮我们去解决一些我们人不愿意去做的或者不适合去做的，比如日本的核电站的核泄漏。你让人进入到这个场景里面去好像不安全，但是这时候如果有我们的机器人，比如赵老师的机器人，进去拧拧螺丝啊，打打开关啊这种我觉得比人进去就要好很多，至少对人没有伤害。所以我觉得这个发展机器人技术或者这个人工智能技术来说是非常必要的。因为有的时候像救灾这种场景就需要这样一些特种的机器来帮助我们人类来完成任务，我们只要进行远程操控、减少整个事情带来的代价（就可以了）。

主持人：因为时间关系，我们现在只能提问一个问题。然后我们把机会交给后面的朋友。我们来找一个女性观众。

观众3: 谢谢！陶教授好，赵教授好！我本身是一个老师，从外地过来。我想请教授帮我们展望一下，在教育领域，这个机器人在多大程度上会取代教师讲课的这个劳动？在哪个领域有可能最先突破？

陶大程：首先我是老师，赵老师也是老师，我们都是同行。我不觉得人工智能或者机器人会取代我们，不然我们觉得我们做的事情好像是自掘坟墓。但是我觉得有一点，人工智能技术、机器人技术还有其他一些技术，能够帮助我们改善授课的质量，能够帮助我们提升学生学习的效率，能够让我们的学生更加聪明、在更短的时间内获得更多的知识，这个我觉得是有可能发生的。比如说，现在我们做智慧课堂、辅助教具，这些和机器人或者人工智能都有很大关系。学生学习情况不太好，我们就可以通过背后的大数据分析，今天这堂课内容太难，或者之前哪些讲课的点学生不太理解。但是当这节课都已经讲完了再去做，那么这一个小时就已经浪费了。如果在上课之前，我们就可以估计出来，我们今天上这节课涉及到哪些知识点，而这些知识点它的前序知识点有哪些。如果这些前序知识点都已经完备，我们根据这节课的受众的状态估计出百分之七十学生可以听懂超过百分之七十的内容，那这节课就是成功的。如果我们预测到有哪些知识点我们以前没有cover(覆盖到)，那我们在这堂课开始的时候就首先去讲哪些东西，这对于老师来讲是一个非常有效的工具。所以我们应该把人工智能首先想象成帮助我们人类的一些工具，而不是想象成是我们的竞争，来抢我们的工具，变成资本家挣钱的工具。未来都不需要老师了，都是机器人，也不需要维护成本，这些我觉得难度是非常大的。难度大到在未来的若干年看到这些事情发生，但是它确实可以帮助我们解决一些问题。比如说现在医生不够用，我们什么时候去医院，医院都是人很多，病人很多，医生很少。说实话医生很辛苦，有时候从早上一直看病，中午都没有时间吃午饭，到晚上才能吃晚饭，中午也许就又一个喝水的时间。也许有一点点时间吃一个sandwich。但其实我们可以让人工智能机器人帮他们干一些事情，帮他去减缓一下，给他一个surpport。比如原来一个小时干完的事情现在可以3分钟干完，让他也有时间去吃个中午饭。医生的身体也是需要注意的，如果医生都病倒了，谁来给我们看病呢？再比如说老师批作业，也是很累的。我们是否有一些算法可以让机器人去批一些简单的作业，难的作业留下来让老师正一下。这样老师也有时间去把课备的更好，给学生传授更多的知识，更好地组织课堂内容。我觉得各行各业都需要这样的技术。现在总说用工荒，实际上是需要做的事情太多了，我们没有人去做这么多的事情。还有全球老龄化问题，这么多孤寡老人谁来解决。我们需要各种各样的方式来解决问题，享受人工智能带来的各种福利。好的。

赵明国：我也同意这个。大家不用担心人工智能会取代（人类）。人工智能在各个领域都有渗透，它应该替代什么内容大家应该清楚。我们很清楚人工智能会替代重复性的、你不愿意做的这些工作，你只要很好地利用它把自己的能力延长就可以了。其他领域也一样，像洗衣机在家里洗衣服，它不会产生别的任何变化，它还是受你支配，受你影响能够帮你把事情做的更好，让你有更多的时间去做更高级的事情。我觉得是这样，不用担心（替代人类）这个事情。

主持人：好，我们的互动时间到此结束。让我们再次以热烈的掌声感谢陶大程教授和赵明国教授。科学连线节目是一个系列性的活动，我们会邀请国际知名科学家连线，来分享最前沿的科学研究和成果，大家也可以关注一下中国数字科技馆的微信公众号，以及环球科学、把科学带回家的微信公众号。我们的活动都会发布在这些平台上。也欢迎大家登陆中国数字科技馆的网站，这是一个国家级的网络科普平台，上面有非常丰富的科普文章、动画、游戏以记科技课堂和科技活动。科学连线活动到此结束，谢谢大家！

导航

热门搜索

恭喜您完成注册！

注册失败！

导航

热门搜索

分享到微信朋友圈

恭喜您完成注册！

注册失败！