DeepMind强化学习大佬推出PonderNet，可以像人一样「思考」的神经网络

新智元新智元

新智元报道

来源：marktechpost

编辑：LRS

【新智元导读】机器需要思考时间吗？在做神经网络模型的时候，可能往往忽略了机器对不同难度问题的解答也需要不同计算量。DeepMind最近推出一个强化学习模型PonderNet，能根据问题难度适应性地调整计算量。

人类在回答一个问题的时候，如果问题更难，显然需要更多的时间去思考。

但在人工构建的标准的神经网络中，所使用的计算量随着输入的大小而增长，与所学习问题的复杂性无关。

但通常，问题还具有与输入大小无关的内在复杂性，例如两个数字相加比除法更快。

大多数机器学习算法不会根据他们正在学习解决的任务的复杂性来调整计算预算，或者可以说，这种调整是由AI模型的创造者手动完成的。

这种适应时间如果作用到人身上，就称之为思考。

之前的工作如适应性计算时间（Adaptive Computation Time, ACT）通过标概率自动学习并估计所需的计算时间。

这种停顿概率（halting probability）调节了每个输入所需的计算步骤的数量，称为「思考时间」。但ACT非常不稳定，而且需要非常敏感的选择一个超参数，权衡准确性和计算成本。

为了克服这一局限性，DeepMind提出了一个新模型PonderNet，可以根据输入问题的复杂性来调整计算量。

PonderNet学习端到端的计算步骤数，以在训练预测准确性、计算成本和泛化之间实现有效的折衷。

它包括一个阶跃函数(step function)，输出分别是网络的预测和在步骤n停止的概率。阶跃函数还可以是任何一个神经网络，如MLP、LSTM或编码器-解码器结构的网络，如Transformer。反复应用这个阶跃函数，最多N次。

在实际应用中，每个问题都需要一个有限的思考步骤，所以只能在有限次数的迭代中展开阶跃函数，并且必须对此进行归一化，使概率之和为1。

可以用两种方法来实现：

1、归一化概率，使其总和为1（这相当于在知道思考次数的情况下调节停止的概率）

2、将所有剩余的暂停概率分配给最后一次思考。

PonderNet使用的损失函数使网络偏向于预期的先前步骤数。其次，它提供了一种激励，使所有可能的步骤数都具有非零概率，从而更加促进了探索。

在一个复杂的综合问题上，PonderNet比以前的自适应计算方法大大提高了性能。如下图所示，PonderNet在奇偶校验任务上取得了比ACT更高的准确率，并且它更有效地利用了思考时间。此外，如果考虑训练期间的总计算时间，可以看到，与ACT相比，PonderNet采用较少的计算并获得更高的分数。

另一个分析是观察先验概率对奇偶校验任务性能的影响。可以看到PonderNet无法解决任务的唯一情况是当 prior（λp）设置为0.9时，即思考的步骤的平均数量大约为1（1/0.9）时。

有趣的现象是，当先验（λp）设置为0.1时，从10步（1/0.1）的先验平均思考时间开始，网络能够克服了这一点缺陷，并稳定到大约3步的更有效平均思考时间。这些结果表明PonderNet相对于先前的方法更稳定，并且与ACT相比有明显的进步，其中τ参数很难设置，并且它是训练不稳定性的来源。

最后，设置先验概率的一个优点是，该参数很容易解释为“思考步数”的倒数，而ACT模型中的τ参数没有任何直接的解释，所以定义先验也变得更加困难。

在测试PonderNet允许外推(extrapolation)的能力时。当在96个元素的输入向量上训练网络时，从1到48个元素的整数开始训练，然后在49到96之间的整数上进行评估。结果显示，PonderNet能够在这项外推任务中实现几乎完美的精度，而ACT保持在随机水平。

此外，DeepMind的方法与现实世界问答数据集的最新结果相匹配，使用的计算量更少。在包括20个任务的bAbI问答数据集上进行实验时，对于不采用自适应计算的标准神经网络体系结构来说，这很难训练。

PonderNet模型能够匹配最先进的结果，实现速度更快，平均误差更低。与Universal transformerx相比，它使用了与PonderNet相同的Transformer架构，但使用ACT优化了计算时间。

要解决20个任务，Universal Transformer需要10161个步骤，而PonderNet只需要1658，因此证实了该方法比ACT使用更少的计算量。

并且PonderNet在一项旨在测试神经网络推理能力的复杂任务上取得了最先进的效果。在配对联想推理任务（paired associative inference, PAI）上测试了PonderNet。这项任务被认为是为了抓住推理的本质，即对分布在多个事实或记忆中的元素之间的距离关系的理解，并且已经证明它可以从自适应计算的添加中获益。

PonderNet能够匹配MEMO的结果，尽管这个模型使用了与UT相同的体系结构，但能够实现更高的精度。

PonderNet用于适应神经网络的计算复杂性。它优化了一个新的目标函数，该函数将预测精度与一个正则化项相结合，该正则化项在思考时间内激励探索。

相比以往的ACT方法应当是一次进步。

参考资料：

https://www.marktechpost.com/2021/08/16/deepmind-introduces-pondernet-a-new-ai-algorithm-that-allows-artificial-neural-networks-to-learn-to-think-for-a-while-before-answering/

继续滑动看下一个