【前沿】AlphaGo如何用4轮走过人类千年？

紫冬声音中国自动化学会

CAA

智慧起航，共创未来

【导语】近日，美国计算机学会（ACM）将2019年ACM计算奖授予 AlphaGo 研发团队领导者 David Silver。Silver 最主要的成就就是领导了 AlphaGo 研发团队，在围棋比赛中击败了凝结了人类天赋与汗水的世界冠军柯洁和李世石。那么，AlphaGo的研发究竟有怎样的里程碑式意义呢？其技术又有怎样的应用呢？

AlphaGo这个名字你一定不陌生，2016年它以4比1的成绩战胜世界围棋冠军李世石，成为第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能机器人。

其研发团队领导者、2019年ACM计算奖获得者David Silver巧妙地将深度学习、强化学习、传统树搜索算法和大规模计算的思想结合起来，开发出了 AlphaGo 算法，AlphaGo被认为是人工智能研究的里程碑。

在下面的访谈中，我们将随着自动化所赵冬斌研究员剖析AlphaGo的重要性、背后的技术突破以及潜在应用情况。

Q：AlphaGo并不是第一个打败人类的人工智能，早在1997 年，IBM 的“深蓝”(DeepBlue)就击败国际象棋世界冠军加里·卡斯帕罗夫(Gary Kasparov)。但为什么AlphaGo如此备受瞩目？1997年的深蓝与2016年打败李世石的AlphaGo有何不同？

深蓝是针对国际象棋提出来的，算法核心是暴力搜索：生成尽可能多的走法，执行尽可能深的搜索，采用了alpha-beta剪枝算法，能快速削减搜索的路径，并不断对局面进行评估，找到最优走法。

Alhpa系列算法最初是针对围棋提出来的，算法核心是机器学习，目前已扩展应用到国际象棋和日本将棋等其他棋类游戏（AlphaZero），都达到了最高水平，也泛化到了视频游戏(MuZero)，超过了原来视频游戏AI（人工智能）的最高水平。

游戏AI的复杂度可以用状态空间复杂度和游戏树复杂度表示。状态空间复杂度(State Space Complexity)是指游戏可以达到的所有符合规则的状态总数，国际象棋是10^ 46，而围棋是10^172。游戏树复杂度(Game Tree Complexity)是指游戏的所有不同路径的数目，国际象棋是10^123，而围棋是10^360。这也是围棋迟迟没有被人工智能方法所攻克的原因。

Q：AlphaGo有三大核心技术：蒙特卡洛树搜索、机器学习算法、深度神经网络。能否介绍三大技术在AlphaGo中的作用？这三大技术组合有何优势？

AlphaGo的核心算法包括强化学习、深度学习、蒙特卡罗树搜索，都是已有的、广为人知的人工智能算法, 但通过巧妙的结合，使其具备了高级智能，达到了顶级棋手的对弈水准。

线下训练包括：

1) 利用棋圣堂围棋服务器 (Kiseido Go server, KGS)上3000万个专业棋手对弈棋谱的落子数据，基于监督学习得到一个策略网络, 来预测棋手的落子情况, 称之为监督学习的策略网络；

2) 使用强化学习进一步对策略网络进行学习, 得到强化学习的策略网络；

3) 使用“自我博弈”产生的棋谱, 根据最终胜负结果来训练价值网络。

在线上对弈时，AlphaGo通过蒙特卡罗树搜索将策略网络和价值网络结合起来, 利用前向搜索选择动作, 主要包含5个步骤：预处理，选择，展开，评估和备份。

分析AlphaGo成功的原因，深度神经网络有重要作用。传统的基于规则的计算机围棋方法只能识别固定的棋路，这类似于背棋谱。基于深度学习的AlphaGo自动提取棋谱局面特征并将其有效地组合在一起, 极大增强了对棋谱的学习能力。其次, 局面的准确评估也是AlphaGo成功的关键，价值网络和快速走子网络在局面评估时互为补充, 能够较好地应对对手下一步棋的不确定性, 对得到更加精确的评估结果至关重要。此外，硬件配置的大幅提升也功不可没。AlphaGo采用了异步多线程搜索，用CPU执行模拟过程, 用GPU计算策略网络和价值网络。最终单机版本AlphaGo使用了48个CPU和8个GPU, 分布式版本的AlphaGo则采用了1202个CPU和176个GPU。正是这些计算机硬件的支持, 才得以让AlphaGo发挥出强大的实力。

Q：2017年，AlphaGo进一步升级，Deepmind公司在《自然》杂志报告了新版程序AlphaGo Zero。AlphaGo Zero能够在只知道游戏规则的情况下，利用4个TPU芯片（谷歌专门为加速深层神经网络运算能力而研发的一款芯片）迅速自学围棋。 为什么算法可以在没有任何人类数据或先验知识的情况下自己来学习？

AlphaGo的策略是先模仿人类专业棋手的棋谱进行监督学习，然后使用策略梯度强化学习算法提升水平。虽然算法的收敛速度较快, 但易于陷入局部最优。AlphaGo Zero则没有使用先验知识和专家数据, 避开了人类棋谱所带来的噪声数据影响, 直接基于强化学习可以逐步逼近至全局最优解，使得最终AlphaGo Zero的围棋水平要远高于AlphaGo。

与AlphaGo相比，AlphaGo Zero还有以下改进：

1) 神经网络结构复杂性降低。AlphaGo Zero将原先两个结构独立的策略网络和价值网络合为一体，合并成一个神经网络。在该神经网络中，从输入层到中间层的权重是完全共享的，最后的输出阶段分成了策略函数输出和价值函数输出。

2) 舍弃快速走子网络。AlphaGo Zero不再使用快速走子网络替换随机模拟，而是完全将神经网络得到的结果替换为随机模拟，从而在提升学习速率的同时，增强了神经网络估值的准确性。

3) 神经网络引入残差结构。AlphaGo Zero的神经网络采用基于残差网络结构的模块进行搭建，用更深的神经网络进行特征表征提取，从而在更加复杂的棋盘局面中进行学习。

4) 硬件资源需求更少。以前Elo评分最高的AlphaGo Fan需要1920块CPU和280块GPU才能完成执行任务, AlphaGo Lee则减少到176块GPU和48块TPU, 而到现在的AlphaGo Zero只需要单机4块TPU便可完成。

5) 学习时间更短。AlphaGo Zero仅用3天的时间便达到AlphaGo Lee 的水平，21天后达到AlphaGo Master水平，棋力快速提升。

Q：究竟什么是人工智能？在人类智力/智慧与人工智能的比赛中，如何衡量人工智能的发展水平？是否比赛获胜就代表人工智能的胜出？游戏比赛很容易量化，那么在无法量化的应用中又如何判断人工智能的水平？

人工智能是1956年由几位年轻科学家在一次会议上提出的，顾名思义，是“人工”设计的“智能”。不同领域有不同的定义，比如阿兰图灵将其定义为“和人类动作不可区分”，也提出了著名的图灵测试：将被测试者与被测试者（一个人和一台电脑）隔开，测试者在一段规定的时间内，根据两个被测试者对他提出的各种问题的反应来判断其是人类还是电脑。

AlhpaGo的成功的原因之一也是选择了围棋这一测试载体，可以很客观地衡量算法的人工智能水平。围棋以标准赛制产生的人类棋手为智能标准，设计了较好的智能评价准则。围棋是一个标准赛制的游戏，用段位科学地描述棋手的水平。因此, 计算机围棋的智能水平很容易通过人类棋手来测试。通过与职业棋手樊麾和李世石的对弈，AlphaGo的智能水平得到了很好的测试。但从击败樊麾到李世石，只用了几个月的时间，围棋AI的水平上升很快，远远超过人类的学习速度。目前AlphaGo Zero的段位远远超过了人类，再与人类棋手下棋时，是否能通过“图灵测试”呢？

在麻将和视频游戏等其他游戏领域，也有类似的评级制度，也比较好衡量人工智能的水平。如微软亚洲研究院提出的麻将Suphx达到了10段，超过了顶级人类水平，谷歌提出的AlphaStar，水平超过了人类宗师级选手。

其他不好量化智能水平的领域，确实很难对算法的智能水平给出客观的评价。我们也做一些智能驾驶的研究，知道智能驾驶也有五级水平划分，但比较粗略。人类驾驶员虽然有驾照分类，但与驾驶水平的智能不是一一对应关系。驾驶涉及技术链条比较长，包括定位、感知、预测、决策、规划和控制等，若想全面衡量驾驶AI的水平，还需要更细致的分类工作，最终才能促进智能驾驶的全面有序推广。

Q：ACM 计算奖旨在表彰研究成果产生了深远影响和广泛意义的中青年计算机科学家。早在2016年就崭露头角的AlphaGo为什么直到现在才获奖？AlphaGo的深远影响和广泛意义体现在哪？

首先祝贺David Silver获得ACM计算奖，我是他的忠实粉丝，他提出的Alpha系列算法是一项项伟大的发明，这些工作的贡献影响深远。好奖不怕晚，也预祝能早日获得图灵奖。

他还是伦敦大学学院(UCL)的教授，他讲授的《强化学习》是我目前见到的对强化学习领域梳理得最清楚的讲义，对这个领域的健康发展意义深远。我们都知道强化学习是和计算机、控制、数学、工程、心理、经济等学科密切相关，其带动了广泛基础学科的发展。在游戏领域获得了成功应用，更推动了其他领域包括机器人、智能驾驶、智能制造、电力优化、量化金融、智慧医疗等纵深应用领域的技术进步。

再次感谢他对这个领域做出的巨大贡献，实至名归！

Q：目前，在国际社会，AlphaGo对深度强化学习的见解已经被应用于很多领域，比如提高英国电网的效率，降低谷歌数据中心的能耗，以及为欧洲航天局设计太空探测器的轨道。您认为哪些应用有望在中国开展？

AlhpaGo对中国的直接影响之一是带动了游戏领域人工智能的研究和发展，如腾讯提出了围棋的“绝艺”，目前作为国家围棋队的陪练，也提出了王者荣耀游戏的“觉悟”。还包括上面提到的微软亚洲研究院的麻将“Suphx”，以及启元的星际争霸“指挥官”等。

目前在其他领域的应用也超过了我的想象，包括上面回答中提到的机器人、智能驾驶、智能制造、电力优化、量化金融、智慧医疗等，所开展的应用没有局限。问题中提到的一个应用还只是用到了AlphaGo算法的一部分内容，如英国电网的例子用到的是深度学习预测的技术，可见AlphaGo的影响之大。

在应用过程中，AlphaGo是否面临伦理问题？

人们日常的工作和生活不仅包括对现实世界的感知和认知，更多地要与环境进行交互和接触、通过决策和执行来获得环境的反馈、而最终达到既定目的。上述和智能相关的内容分别对应于感知智能、认知智能和决策智能。

而决策智能是根据所获取的环境信息和自身的状态来进行自主决策，并使得由环境反馈的累计收益最大，由反馈形成了系统闭环，是人工智能更完整的表现形式。AlphaGo是决策智能的代表。

涉及到决策，就会产生一定的伦理性问题，目前在游戏领域并不突出，一个游戏AI的胜负不会有很大影响。而在智能驾驶领域，驾驶AI的决策失误，严重会导致撞车等事故发生。又如在智能医疗领域，医疗AI给出的处方若有问题，会对治疗疾病无效甚至影响生命安全。这也是AlphaGo算法等决策智能在实际应用的主要制约问题。安全的，可解释的决策智能是人工智能的重要发展方向，还有很多工作期待更多人的探索和关注。

采访专家赵冬斌

中国科学院自动化研究所研究员

IEEE Fellow

中国自动化学会会员

相关文章推荐

[1]赵冬斌，邵坤，朱圆恒，李栋，陈亚冉，王海涛，刘德荣，周彤，王成红。深度强化学习综述: 兼论计算机围棋的发展，控制理论与应用，vol.33, no.6, pp.701-717, 2016.

[2]唐振韬，邵坤，赵冬斌，朱圆恒，深度强化学习进展—从AlphaGo到AlphaGo Zero，控制理论与应用，vol. 34, no. 12, pp.1529-1546, 2017。

[3]朱圆恒，唐振韬，李伟凡，赵冬斌，【中科院自动化所深度解析】Deepmind AlphaStar 如何战胜人类职业玩家，德先生，2019年1月26日。

[4]李伟凡，朱圆恒，赵冬斌，DeepMind 星际争霸AI登刊Nature！RTS游戏已被AI攻克？德先生，2019年11月5日。

来源：中国科学院自动化研究所

大树分割线






往期文章

万众一心 我们终将战胜这一疫情——中国自动化学会致广大理事、会员的一封信
中国自动化学会给大家拜年了！你若安好，便是团圆！
【回首2019，祝福2020】不负韶华，只争朝夕！CAA秘书处给您拜大年！
【喜报】恭喜陈俊龙教授当选IEEE Transactions>主编 
【重磅】2020年度国家自然科学基金项目指南正式发布
【CAC2020】2020中国自动化大会征文通知
【喜报】2019年度国家科学技术奖揭晓，学会会员喜获四项二等奖
【征文启事】第35届中国自动化学会青年学术年会
【新年首发】“我”的2020年工作计划
【新年寄语】中国自动化学会理事长郑南宁院士新年寄语







联系我们

地址：北京市海淀区中关村东路95号
邮编：100190
电话：010-82544542（综合）
          010-62522472（会员）
          010-62522248（学术活动）
          010-62624980（财务）
传真：010-62522248
邮箱：caa@ia.ac.cn






更多精彩

官方微信公众号（英文）
名称：CAA OFFICIAL
微信号：caaofficial
会员微信公众号 
名称：CAA会员服务 
微信号：caa-member

继续滑动看下一个