具有“前瞻性”思维的程序成棋类人机大战黑马

科技工作者之家 2020-12-28

1.jpg

人类还能在棋类人机大战中获胜吗?

爱因斯坦曾经说过:“你必须去学习游戏规则,然后你还要比别人玩得都好。”这很可能是人工智能公司DeepMind的座右铭。techxplore.com网站当地时间12月24日报道,Deepmind开发了一款名为MuZero的程序,它能够在不了解规则的情况下,掌握复杂游戏的玩法。相关研究成果刊登在《自然》杂志中。

DeepMind此前曾使用强化学习让人工智能程序学会了围棋、日本将棋、国际象棋和雅达利电子游戏的玩法。在这些例子中,计算机都事先学习过游戏规则。而新开发的MuZero,在没有先学习规则的情况下,不仅能够完成同样的任务,甚至偶尔还能击败早期程序。

DeepMind的程序员们在MuZero中使用了“前瞻性搜索”原则(LAS)。在LAS指引下,MuZero可根据对手反应评估潜在的移动方式。在类似国际象棋这样的复杂游戏中,可能存在大量潜在走法。MuZero会优先考虑相关性及可能性最高的策略,从成功策略中学习,并避免失败策略。研究人员表示,MuZero在挑战雅达利公司的“吃豆人”游戏时,虽然只能考虑6~7种潜在的未来移动,但其表现已经十分惊人。DeepMind首席研究科学家David Silver说:“我们首次创建了能自我理解世界的系统。它能根据自身的理解来拟定复杂的前瞻性计划。MuZero可以通过试错,发现世界的规则,然后利用这些规则实现超人表现。”

Silver认为,MuZero不仅是游戏好手,它还在视频压缩方面表现出了天赋。考虑到海量的视频格式和压缩模式,视频压缩绝非一项简单任务。目前,MuZero已经在视频压缩方面取得了5%的进展,这对视频行业领头羊谷歌来说,是一项不小的成就。Silver说,工程师们也在研究机器人编程和蛋白质结构设计,以实现个性化药物生产。

南安普顿大学计算机科学教授、英国人工智能委员会成员Wendy Hall表示,DeepMind的成果让人工智能技术向前迈出了重要一步。但她也对潜在的风险忧心忡忡。Hall说:“我所担心的是,DeepMind虽然为提升算法付出了不懈努力,希望将其结果用于造福社会,但他们可能没有花更多的精力去思考潜在的不利影响。”

事实上,美国空军已经通过借鉴MuZero的早期研究论文,设计了一种能从U-2间谍飞机上发射导弹以打击特定目标的人工智能系统。当问及对这种军事应用的看法时,Silver毫不犹豫地表达了忧虑之情。他说:“我反对在任何致命武器中使用人工智能技术。我希望团队在禁止致命自主武器方面有更大动作。”DeepMind及其联合创始人都签署了《致命自主武器承诺书》。该协议坚持致命技术应该始终处于人类控制之下,而绝不能由人工智能算法主导。“未来的挑战是理解并实现类脑算法,而实现这一目标的第一步是理解获得智力意味着什么。我们认为这对于强化人工智能的实际能力非常关键,因为世界充满了混乱,没有人能提供神奇的规则手册,告诉大家世界究竟是怎样运作的。让人工智能具备自我理解能力,是其迈向现实世界的基础。”

科界原创 

编译:雷鑫宇 

审稿:西莫 

责编:陈之涵

期刊来源:《自然》

期刊编号:0028-0836 

原文链接:

https://techxplore.com/news/2020-12-deepmind-muzero-conquers.html

版权声明:本文由科界平台原创编译,中文内容仅供参考,一切内容以英文原版为准。转载请注明来源科技工作者之家—科界App。


人工智能 世界 计算机科学 DeepMind 游戏 MuZero

推荐资讯