./t20160316_345525_taonews.html
专题
首页  >  专题  >  学姐来了  >  第129期

AlphaGo如何学会下围棋的?

来源:

AlphaGo是一个有“深度学习”能力的人工智能系统,利用深度学习算法,能够吸收知识改进自身——包括神经网络的拓扑结构和神经元的权重与阈值。这意味着,AlphaGo今天可以学习下围棋,明天也许就可以学习玩飞机大战、学习画油画等等。这种模拟人类的学习能力,才是AlphaGo真正的厉害之处。

让我们来看看AlphaGo是怎样成为围棋高手的。


AlphaGo系统主要由四个部分组成:

1. 走棋网络(Policy Network,也译为策略网络),给定当前局面,预测/采样下一步的走棋。

2. 快速走子(Fast rollout),目标和1一样,但在适当牺牲走棋质量的条件下,速度要比11000倍。

3. 估值网络(Value Network),给定当前局面,估计是白胜还是黑胜。

4. 蒙特卡罗树搜索(Monte Carlo Tree SearchMCTS),把以上这三个部分连起来,形成一个完整的系统。

——田渊栋(卡耐基梅隆大学机器人系博士,Facebook人工智能组研究员)


其中,“走棋网络”(也称策略网络)会对全局进行把控,先剔除一些多余选项——面对眼前的一盘棋,有些棋步是明显不该走的,比如不该随便送子给别人吃。而“估值网络”(也称价值网络)会对棋路的价值进行评估——AlphaGo会一边推算一边判断局面,在局面处于明显劣势的时候,再集中进行推算的价值已经不高,可以果断放弃,避免了“一条道走到死”的局面;利用蒙特卡洛算法,将这些信息放入一个概率函数,AI就不用给每一步以同样的重视程度,而可以重点分析那些“含金量”较高的地方。

策略网络和价值网络是两种深度神经网络,简单来说,策略网络负责减少搜索的宽度,价值网络负责减少搜索的深度,从而将系统的计算量控制在可以接受的范围内

AlphaGo之父——杰米斯哈萨比斯(Demis Hassabis),AlphaGo研发公司“Deep Mind”创始人

本文来自:
特别声明:本文转载仅仅是出于科普传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或其它相关事宜,请与我们接洽。
[责任编辑:满月]
分享到:
文章排行榜
©2011-2019 版权所有:中国数字科技馆
未经书面许可任何人不得复制或镜像
京ICP备11000850号 京公网安备110105007388号
信息网络传播视听节目许可证0111611号
国家科技基础条件平台
./t20160316_345525_taonews.html