以下文章来源于学术头条 ,作者学术头条
致力于学术传播和科学普及,重点关注AI4Science/大模型等前沿科学进展。
点击上方蓝字“返朴”进入主页,可关注查阅往期文章
图:以行为主义研究而闻名的美国心理学家 Burrhus Frederic Skinner丨来源:Wikipedia
图:“Reward is enough” 的假设,假定智力及其相关能力可以被理解为在其环境中行动的主体促进奖励的最大化丨来源:ScienceDirect
图:威尼斯圣马可大教堂的拱肩丨来源:Michael Vadon under Creative Commons license
Gould 和 Lewontin 给出了另一个例子,对阿兹台克人祭祀同类相食的适应性解释。阿兹特克人从事活人祭祀。从适应主义的角度解释是,祭祀制度是解决肉类长期短缺问题的方法。受害者的四肢经常被社区中的某些地位高的成员吃掉。这种 “解释” 认为,构成这一精心设计的仪式性谋杀的神话、象征和传统系统是对肉的需求的结果,而事实可能恰恰相反。每一位新国王都必须超越他的上一任,为更多的人献上越来越精致的祭品。这种做法似乎使阿兹特克帝国的经济资源日益紧张。其他蛋白质来源很容易获得,只有某些已经拥有足够食物的特权人士才会吃牺牲的受害者的某些部分。如果目标是让饥饿的人吃到肉,那么人们会期望他们能够更有效地利用受害者,并更广泛地传播食物来源。对肉的需求不太可能成为人类牺牲的原因;相反,它似乎是其他文化习俗的结果,这些习俗实际上对阿兹特克文明的生存不适应。
引用 Silver 等人迄今为止的论点,如果目标是成为富人,那么只要积累大量的金钱就足够了。用积累金钱就可以用成为富人的目标来解释,成为富人的定义是积累了大量的金钱。强化学习没有解释一个人如何去积累金钱或为什么这应该是一个目标。他们认为,这些都是由环境决定的。
Silver 等人认为,如果一个智能体可以不断调整其行为以提高其累积奖励,那么其环境反复要求的任何能力最终都必须在智能体的行为中产生。
在Silver 等人在自然智能和通用人工智能之间进行了类比,并指出 “动物的经验流足够丰富和多样的,它可能需要一种灵活的能力来实现各种各样的子目标(例如觅食、战斗或逃跑),以便成功地最大化其整体奖励(例如饥饿或繁殖)。类似地,如果一个人工智能代理的经验流足够丰富,那么许多目标(例如电池寿命或生存)可能隐含地需要实现同样广泛的子目标的能力,因此奖励的最大化应该足以产生一种通用的人工智能。”
Roitblat 反驳道,只靠奖励本身其实是不够的,至少环境也发挥了作用。但适应的内容远不止这些。适应需要一个变异性的来源,从中可以选择出某些特征。进化生物学中这种变异的主要来源是突变和重组。任何生物体的繁殖都涉及到将基因从父母那里复制到孩子身上。复制的过程并不完美,并且会出现错误。其中许多错误是致命的,但也有一些不是,然后可用于自然选择。在有性繁殖的物种中,每一个亲本都贡献了其基因的一个副本(以及任何潜在的错误),这两个副本允许通过重组产生额外的变异性,一些来自一个亲本的基因,一些来自另一个亲本的基因传递给下一代。
图:英国生物学家 Dawkins丨来源:Flickr
奖励是选择。仅此而已,这是不够的。正如 Dawkins 所指出的,进化奖励是将特定基因传递给下一代。奖励是在基因层面,而不是在生物体或物种层面。任何能增加基因从一代传给下一代的机会的东西,都是对这种奖赏的调解,但请注意,基因本身并没有能力成为智能。
除了奖励和环境,其他因素也在进化和强化学习中发挥着作用。奖励只能从现有的原材料中进行选择。如果我们将一只老鼠扔进一个洞穴,它就不会像蝙蝠一样学会飞行和使用声纳。积累足够的突变需要多代甚至数百万年的时间,即便如此,也不能保证它能进化出与蝙蝠一样的解决洞穴问题的方法。强化学习是一个纯粹的选择性过程。强化学习是提高行动概率的过程,这些行动共同构成了处理某种环境的政策。这些行动必须已经存在,才能被选中。至少就目前而言,这些行动是由进化中的基因和人工智能中的程序设计师提供的。
针对这一问题,Silver 等人在论文中也提到,在不同的环境中实现不同的奖励最大化可能会导致不同的、强大的智能形式,每一种智能都会表现出自己令人印象深刻的、但又无法比拟的一系列能力。一个好的奖励最大化的代理将利用其环境中存在的任何元素,但某种形式的智能的出现并不以它们的具体内容为前提。
正如 Lachter 和 Bever 所指出的那样,学习并不像 Silver 等人所声称的那样从 “白板”(Tabula rasa)开始,而是从一组代表性的承诺开始。Skinner 的大部分理论都基于动物的强化学习,尤其是鸽子和老鼠。他和许多其他研究人员在严酷的环境中研究了它们。对于老鼠来说,那是一个房间,里面有一个供老鼠按压的杠杆和一个提供奖励的喂食器。老鼠除了在短距离内徘徊并接触杠杆外,没有什么其他可以做的。鸽子也在一个包含啄食键(通常是墙上的一个有机玻璃圈,可以被照亮)和一个提供奖励的谷物喂食器的环境中接受了类似的测试。在这两种情况下,动物都有一种预先存在的偏见,即以行为学家希望的方式作出反应。事实证明,即使没有奖励,老鼠也会接触杠杆,鸽子也会在黑暗的盒子里啄食发光的钥匙。这种以理想方式做出反应的倾向使得训练动物变得容易,研究者可以不费吹灰之力地研究奖励模式的影响。但多年后人们才发现,选择杠杆或啄食钥匙并不只是一种任意的便利,而是一种未被承认的 "幸运选择"。
当 Rumelhart 和 McClelland 建立他们的过去式学习者时,同样未被承认的幸运选择发生了。他们选择的表征恰好反映了他们希望他们的神经网络能够学习的信息。这不是单纯依靠一般学习机制的 “白板”。Silver 等人在题为 “A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play” 的论文中指出,在开发 AlphaZero 时也很 "幸运",他们在本文中提到了这一点。他们在提出这一主张的同时,对 AlphaZero 进行了更详细的说明。
他们的结果表明,一个通用的强化学习算法可以在没有特定领域的人类知识或数据的情况下学习“白板”,同一算法在多个领域的成功学习证明了这一点,在多个具有挑战性的游戏中表现出了超人的表现。
他们还指出,AlphaZero 用深度神经网络、通用强化学习算法和通用树形搜索算法取代了传统游戏程序中使用的手工知识和特定领域的增强功能。
他们不包括明确的针对游戏的计算指令,但确实包括了人类对解决问题的重大贡献。例如,他们的模型包括一个 "神经网络 fθ(s),[它]将棋盘位置 s 作为输入,并输出一个移动概率矢量"。换句话说,他们并不期望计算机知道它在玩游戏,或者游戏是通过轮流进行的,或者它不能只是把围棋棋子堆成一堆或把棋盘扔在地上。他们还提供了许多其他的约束条件,例如,让机器与自己对弈。他们使用的树状表示法曾经是代表游戏玩法的巨大创新。树的分支对应于可能的移动范围,没有其他操作是可能的。计算机还被提供了一种使用蒙特卡洛树形搜索算法搜索树的方法,并且提供了游戏的规则。
那么,AlphaZero 远不是一个“白纸黑字”,它被赋予了大量的先验知识,这大大限制了它可以学习的可能范围。因此,即使在学习围棋的背景下,也不清楚 "奖励是足够的"意味着什么。要使奖励足够,它就必须在没有这些限制的情况下发挥作用。此外,目前还不清楚,即使是一个一般的游戏系统,是否也能算作在不太受约束的环境中进行一般学习的一个例子。AlphaZero 对计算智能作出了重大贡献,但它的贡献主要设计它的人类智能,识别其运行的约束,并将玩游戏的问题减少到定向树搜索。此外,它的约束条件甚至不适用于所有游戏,而只适用于有限类型的游戏。它只能玩某些类型的棋盘游戏,这些棋盘游戏的特征是树搜索,学习者可以将棋盘位置作为输入并输出一个概率向量。没有证据表明它甚至可以学习另一种棋盘游戏,比如大富翁,甚至 Parchisi。
在没有约束的情况下,奖励并不能解释任何东西。AlphaZero 不是所有种类学习的模型,当然也不是通用智能的模型。
Silver 等人将一般智能视为一个定量问题。"通用智能,即人类和其他动物所拥有的那种智能,可以被定义为在不同背景下灵活地实现各种目标的能力。"
需要多大的灵活性?多大范围的目标?如果我们有一台电脑,可以交替地下围棋、跳棋和国际象棋,这仍然不构成通用智能。即使我们增加了另一种游戏,即象棋,我们仍然拥有完全相同的计算机,它仍然可以通过找到一个模型来工作,该模型“以棋盘位置 s 作为输入并输出移动概率向量”。计算机完全没有能力接受任何其他的 "想法" 或解决任何无法以这种特定方式表示的任何问题。
通用人工智能中的 "通用" 不是以它可以解决不同问题的数量为特征,而是以解决多种类型问题的能力为特征。一个通用智能代理必须能够自主地制定自己的表述,它必须创造自己的方法来解决问题,选择自己的目标、表征、方法等等。到目前为止,这都是人类设计师的职权范围,他们将问题简化为计算机可以通过调整模型参数解决的形式。除非我们能够消除对人类构建问题的依赖,否则我们无法实现通用智能。强化学习,作为一个选择性的过程,无法做到这一点。
正如行为主义和认知主义之间的对抗,以及反向传播是否足以学习语言学的过去式转换的问题一样,这些简单的学习机制只有在我们忽略了其他往往未被承认的限制因素所带来的沉重负担时才显得充分。奖励在可用的替代方案中进行选择,但它们无法创造这些替代物。只要我们不仔细观察这些现象,只要我们假设一定有某种奖励能强化某种行动,行为主义的奖励就能发挥作用。善于事后“解释”任何观察到的行为,但在实验室之外,它们无助于预测哪些行动即将发生。这些现象与奖励是一致的,但如果认为它们是由奖励引起的,那就错了。
Roitblat 在 Algorithms Are Not Enough: How to Create Artificial General Intelligence 一书中解释了为什么所有当前包括强化学习在内的人工智能算法,都需要仔细制定人类创建的问题和表示。他表示,一旦建立了模型及其内在表示,优化或强化就可以指导其进化,但这并不意味着强化就足够了。同样,Roitblat 补充说,该论文没有就如何定义强化学习的奖励、动作和其他元素提出任何建议。与 Silver 等人的说法相反,他认为奖励是不够的。
参考资料
[1] https://venturebeat.com/2021/07/10/building-artificial-intelligence-reward-is-not-enough/
本文经授权转载自微信公众号“学术头条”。
相关阅读
近期推荐
特 别 提 示
1. 进入『返朴』微信公众号底部菜单“精品专栏“,可查阅不同主题系列科普文章。
2. 『返朴』提供按月检索文章功能。关注公众号,回复四位数组成的年份+月份,如“1903”,可获取2019年3月的文章索引,以此类推。
长按下方图片关注「返朴」,查看更多历史文章