【机器人与人工智能产业发展论坛专家观点】Jens Kober：如何让机器人学会新技能？学术资讯

来源：中国电子学会

按：在近日结束的第二十二届中国科协年会“机器人与人工智能产业发展论坛”上，领域内的著名专家学者齐聚一堂，对机器人与人工智能领域的未来应用创新方向和机遇进行了深入探讨，本专栏特辑录分享专家精彩观点，以供参考。

荷兰代尔夫特理工大学副教授、IEEE RAS 青年科学家奖获得者Jens Kober在云分享会环节发表了精彩演讲，以下为演讲实录：

非常感谢邀请我来介绍最近在人工智能方面的学习！

大家听说过很多人工智能的理论，但是很少听人工智能和机器人的结合，这是为什么？

大多数非常成功的现代人工智能实践都依靠大数据，但是在机器人领域，我们经常需要处理小数据，请看这个图片。谷歌有一支机器人团队，虽然这能让人眼前一亮，但并不实用，仔细看一看这些机器人，我只能说，机器人利用人工智能能做的事情，主要与认知和高级推理有关，但是，实际的运动和与环境的交互还需要进一步发展。

我要强调的是，具体的人工智能装置和纯软件人工智能其实并不一样。没错，它们有很多共同特征，但也有独特性。也许可以这样来表示，有很大一块重叠的区域，但两个领域都有各自的挑战。

是什么导致机器人很难学习任务，要我说，很大一部分原因在于复杂的动力学，机器人如何与周围的环境交互。物体、环境和任务中会出现很多不确定性和变化，如果机器人要与人类交互，情况可能会更糟。

坏消息是，几乎所有机器人场景，在工业制造领域，如果可行的话，我们希望摆脱机器人，就必须用障碍物把它们隔开。在农业领域，图片中的西红柿各不相同，环境也有变化，还有老年人护理领域、家居领域等等，这涉及学习交互。

但机器人怎么学会新技巧、新的运动方式呢？

通常来说，有两种不同但互补的方式。第一种是模仿学习，老师示范一项技巧，然后学生试着模仿，这种方式适用于简单的学习，但对于更复杂的任务，机器人也需要学习，这就是我们所说的强化学习。

前面的幻灯片中介绍了学习方法有很多其实是受到人类学习方法启发，但如果再仔细看一下，就会发现其中一个特点是学习过程中师生持续互动，学习过程中老师不仅提供最初的示范和指导，也提供额外的示范和其它反馈，但是，这是目前机器学习中缺少的一个方面，我认为这有很大的好处。它能让我们加快学习过程，从而能完成更复杂的任务，就像这些例子所展示的，对人类来说，通过这种方式进行教学的也相当直观。

接下来，谈一谈我们如何在我所说的交互学习中运用这种方式。

我们先从学习交互开始，这里我们关注的重点是强化学习，这个图显示了典型的循环，图中有一个智能体，在这里就是机器人。它执行一个动作影响周围的环境，环境也会改变它的状态，例如，机器人的位置，然后智能体根据新的状态执行另一个动作，或者在结合处施加扭转力，然后如果下去，每执行一步，机器人也会获得奖励，也就是一个标量信号。

通常来说，您可以假定有一个预定义的低维状态，所有需要的信息通过图中的传递给机器人，但现实并非如此。现实情况中只有高维感官观察，而机器人则需要先明白它们的含义。

看一下这个机器人，您会发现有非常高维度的感官观察，有激光测距仪、中继编码器，在强化学习中，特别是在深度强化学习中，您需要在这里设置一个瓶颈层，神经网络内的结构迫使它压缩到相当低维的状态表征。

在此基础上，智能体将做出决定，并执行动作。所以，强化学习就是利用试错和标量奖励，通过使用这种特定的网络结构，我们可以间接迫使它产生这种良好状态表征。然而，这通常需要大量的数据。

那么我们在这方面有什么改变吗？

很明显可以的。我们可以做的是纳入更多的先进知识，帮助我们找测量方式，我们称之为状态表征学习。其中包括根据状态表征运行的额外的代价函数，对关于世界的某种形式的先验知识编码。所以这不仅会提高学习效率，而且会迫使它学会一个更一般的表征。

更具体的说，状态表征学习的标准是什么？

您要能够预测机器人将如何移动，或者环境将如何随着机器人的动作而变化，此外还有缓慢性和多样性等，因为即使机器人执行了一个动作，它也不会移动十米，而是只移动一点点。但同时我们希望尽可能利用好我们所拥有的全部表征能力，最后，事实证明在这种情况下最好的一个正则项就是学习，因为这告诉我们，我们到底需要什么样的功能才能学到好的策略。

所以在实际操作中，看起来是这样的，这些不同形式的观察结合起来，然后形成慢维状态表征，至于代数函数，我们使用Q函数，因为它学习有关，还使用不少辅助损失系统。这些函数对于各种形式的状态表征学习的先验知识，我们评估了基准，我一会儿给大家介绍。

我们会比较只使用强化学习，同时使用状态表征学习先验知识和强化学习，还有交替使用强化学习和状态表征学习。对于强化学习来说这部分网络是固定的，那么您只需要更新策略，而状态表征学习只更新网络的第一部分，然后就是在两者之间进行迭代。

我将给大家展示的实验是在TORCS上的，是一个塞车模拟。在此我们考虑不同的环境，这里有四种不同的训练和测试赛道，我们还有一个可选择的赛道，不包括在封闭式研究中。我们要测试的是智能替载其中一个赛道上的学习效果和速度，但可能更重要的是，它在其中一个环境中或一个赛道上学习到的驾驶策略能否在没有任何训练的情况下很好的转用到其它赛道。

结果是这样的，可以看到在训练领域，我们在一条特定的赛道上进行训练，然后再次在同一赛道上进行测试，我们所考虑的三种设定下的结果并没有太打不通，强化学习的表现要稍差一点，另外两个都差不多。

但总体来说，差别真的很大。但是，如果没有做任何额外的训练，便将策略学习从一个赛道转移到另一个赛道，结果就会出现很大差异。您可以看到这里的挑战，包含了状态表征学习的测试之间的差值，明显优于只使用强化学习。为什么呢？

正是因为我们学到了更一般的表征，迫使形成了一种更加一般化的表征。举一个简单的例子，如果我们在一个赛道上，但是如果我们切换到不同的场景，这就不是那么容易，我们需要更多的关注例如道路上的标志。为了说明这一点，请看这些视频。

这是在训练赛道上，右侧结合了强化学习和状态表征学习，左侧仅仅只是强化学习，您实际看不出有什么明显的不同，现在就完全不一样了。

（以上全文根据录音整理）

来源：cieinfo 中国电子学会

原文链接：http://mp.weixin.qq.com/s?__biz=MzA4MTgwMjkyNw==&mid=2657305056&idx=2&sn=9d925a30e77f57ce94f15b25a1cb6fa2&chksm=84188220b36f0b36da26432fff7647dc8102a2ada0d1bcfa7ebabf27b8351804421dd7e3865b&scene=27#wechat_redirect

电话：（010）86409582

邮箱：kejie@scimall.org.cn