源自人类婴儿学习本能的人工智能技术学术资讯

图片2.png

这幅详细示意图展示了研究人员所开发的这一最新技术。

近年来，纵然人工智能领域取得了重大进展，但是大多数虚拟代理人仍然需要经过数百小时的训练，才能在完成几项任务时达到人类的水平，而人类只需要在几个小时或更少的时间内，就可以学会如何完成这些任务。最近的一些研究强调了人类快速获取知识的两个关键因素——直觉物理学和直觉心理学。这些已经在人类早期发展阶段中观察到并证实的直觉模型，可能是未来学习活动的核心推动力量。

据“科技探索网”近日消息称，基于以上理念，韩国高级科学技术研究院的研究人员最近开发了一种内在的奖励标准化方法，它能允许人工智能虚拟代理人选择最能改善其直觉模型的行为。他们在arXiv.org预印服务器网站上刊发的一篇研究论文中，特别提出了一种整合了深度强化学习技术的图形化物理网络，而这种学习技术源自于在人类婴儿身上所观察到的学习行为。

心理学研究表明，在人出生后的最初几年中，婴儿不断对周围环境进行试验，这让他们能够对这个世界形成一种关键性的认识与理解。此外，当孩子们察觉到，他们的行为结果不符合他们先前预期结果时（这被称为“期望违背”），他们会常常鼓励自己进行进一步实验，以更好地理解他们所处的周遭状况。

KAIST的研究团队试图采用强化学习技术，让人工智能虚拟代理人重现这类实验行为。在研究中，他们首先引入了一个图形物理网络，它可以提取物体之间的物理关系，并预测它们在三维环境中的后续行为。随后，他们将该网络与深度强化学习模型集成在一起，并引入一种内在的奖励标准化技术，这一技术能够鼓励人工智能虚拟代理人探索和识别将不断改进其直觉模型的行为。

利用三维物理引擎，研究人员证明了他们的图形物理网络可以有效地推断出不同物体的位置和速度。他们还发现，他们的方法允许深度强化学习网络不断改进其直觉模型，鼓励它仅仅基于内在动机而与对象发生交互。

在一系列评估中，这组研究人员设计的新技术取得了显著的准确性，人工智能虚拟代理人也执行了更多不同的探索性动作。在未来，它可以为开发机器学习工具提供重要信息，而这些工具可以更快更有效地从过去的经验中进行学习。

科界原创

编译：Jonathan

审稿：三水

责编：唐林芳

原文链接：

https://techxplore.com/news/2019-07-technique-machine-behavior-human-infants.html