具有“前瞻性”思维的程序成棋类人机大战黑马学术资讯

人类还能在棋类人机大战中获胜吗？

爱因斯坦曾经说过：“你必须去学习游戏规则，然后你还要比别人玩得都好。”这很可能是人工智能公司DeepMind的座右铭。techxplore.com网站当地时间12月24日报道，Deepmind开发了一款名为MuZero的程序，它能够在不了解规则的情况下，掌握复杂游戏的玩法。相关研究成果刊登在《自然》杂志中。

DeepMind此前曾使用强化学习让人工智能程序学会了围棋、日本将棋、国际象棋和雅达利电子游戏的玩法。在这些例子中，计算机都事先学习过游戏规则。而新开发的MuZero，在没有先学习规则的情况下，不仅能够完成同样的任务，甚至偶尔还能击败早期程序。

DeepMind的程序员们在MuZero中使用了“前瞻性搜索”原则（LAS）。在LAS指引下，MuZero可根据对手反应评估潜在的移动方式。在类似国际象棋这样的复杂游戏中，可能存在大量潜在走法。MuZero会优先考虑相关性及可能性最高的策略，从成功策略中学习，并避免失败策略。研究人员表示，MuZero在挑战雅达利公司的“吃豆人”游戏时，虽然只能考虑6~7种潜在的未来移动，但其表现已经十分惊人。DeepMind首席研究科学家David Silver说：“我们首次创建了能自我理解世界的系统。它能根据自身的理解来拟定复杂的前瞻性计划。MuZero可以通过试错，发现世界的规则，然后利用这些规则实现超人表现。”

Silver认为，MuZero不仅是游戏好手，它还在视频压缩方面表现出了天赋。考虑到海量的视频格式和压缩模式，视频压缩绝非一项简单任务。目前，MuZero已经在视频压缩方面取得了5%的进展，这对视频行业领头羊谷歌来说，是一项不小的成就。Silver说，工程师们也在研究机器人编程和蛋白质结构设计，以实现个性化药物生产。

南安普顿大学计算机科学教授、英国人工智能委员会成员Wendy Hall表示，DeepMind的成果让人工智能技术向前迈出了重要一步。但她也对潜在的风险忧心忡忡。Hall说：“我所担心的是，DeepMind虽然为提升算法付出了不懈努力，希望将其结果用于造福社会，但他们可能没有花更多的精力去思考潜在的不利影响。”

事实上，美国空军已经通过借鉴MuZero的早期研究论文，设计了一种能从U-2间谍飞机上发射导弹以打击特定目标的人工智能系统。当问及对这种军事应用的看法时，Silver毫不犹豫地表达了忧虑之情。他说：“我反对在任何致命武器中使用人工智能技术。我希望团队在禁止致命自主武器方面有更大动作。”DeepMind及其联合创始人都签署了《致命自主武器承诺书》。该协议坚持致命技术应该始终处于人类控制之下，而绝不能由人工智能算法主导。“未来的挑战是理解并实现类脑算法，而实现这一目标的第一步是理解获得智力意味着什么。我们认为这对于强化人工智能的实际能力非常关键，因为世界充满了混乱，没有人能提供神奇的规则手册，告诉大家世界究竟是怎样运作的。让人工智能具备自我理解能力，是其迈向现实世界的基础。”

科界原创

编译：雷鑫宇

审稿：西莫

责编：陈之涵

期刊来源：《自然》

期刊编号：0028-0836

原文链接：

https://techxplore.com/news/2020-12-deepmind-muzero-conquers.html