领域通用智能的可能技术路径

原创刘康、黄高等中国计算机学会

通用智能仍然处于发展初期，是对现有窄/弱人工智能的反思、补充和改进，也是通往强人工智能道路上的重要路线。下一代通用人工智能技术急需突破的问题是如何“泛化”。本文从单模态通用、多场景通用、多模态通用等几个方面对通用智能需要突破的关键技术以及已有的研究进展进行了讨论和总结。

关键词：通用人工智能领域通用智能泛化

什么是通用人工智能

随着以深度学习为代表的人工智能技术的飞速发展，机器已经能够通过大数据学习完成识别语音、理解图片、分辨人脸、追踪目标、识别语言等任务，并在技术上取得了巨大突破。有些模型或系统在某些任务上已经超越了人类选手，更有甚者宣称已经通过了图灵测试。例如，1997年，IBM深蓝系统(Deep Blue)战胜了国际象棋大师加里 ·卡斯帕罗夫(Garry Kasparov)；2011年，IBM 沃森(Watson)问答系统在“Jeopardy！”节目中战胜了两位人类选手；2017年，DeepMind的AlphaGo在围棋竞赛中碾压了人类冠军，并且能够通过自我博弈学习到未曾有过的“妙手”；2020年，OpenAI发布了具有超大参数集合（1750亿）的自回归语言模型GPT-3，在众多自然语言处理任务中，特别是小样本场景下取得了出色效果。但是，这些模型或系统均是在单一场景下，基于训练数据、针对单一任务进行优化，实现有限框架内的感知、理解、推理、控制等行为，因此被称为“窄人工智能”(Artificial Narrow Intelligence，ANI)。相较而言，我们更加希望机器能够像人一样思考和推理，具备处理各种任务的能力，而不是仅仅局限于单一模态、场景或者任务。研究者们称这种智能为“通用人工智能”(Artificial General Intelligence，AGI)。

2000年左右，瑞士人工智能研究所(IDSIA)、美国仁斯利尔理工大学(RPI)、卡耐基梅隆大学(CMU)等研究机构的学者就开始关注通用人工智能这一新的技术分支。2007年，施普林格(Springer)出版了Artificial General Intelligence(Ben Goertzel和Cassio Pennachin著)一书。2006年，第一届AGI workshop在马里兰召开，并从2008年开始，升级为通用人工智能大会，由AGI Society主办，每年召开一次，迄今为止已经召开了13届。

我们现有的大多数人工智能模型和方法属于窄人工智能，也被称为弱人工智能(Weak Artificial Intelligence)。相对而言，强人工智能(Strong Artificial Intelligence)期望机器能像人一样思考、推理，能处理各种任务，比肩人类的智能水平(Human-like or Human-level Intelligence)。与强人工智能相比，现有通用人工智能更加强调机器的“泛化”能力，包括场景泛化（即模型从单一场景泛化至多个场景）、模态泛化（即一个模型适用于多种模态的任务）、任务泛化（即一个模型可以处理多种类型的任务）等。

通用人工智能目前仍然处于发展初期，是对现有窄/弱人工智能的反思、补充和改进，也是通往强人工智能道路上的重要路线。通用人工智能所研究的是一个智能系统应该具备哪些能力，并且运用这些能力解决各式各样的复杂问题。笔者认为，下一代通用人工智能技术急需突破的问题是如何“泛化”，我们称之为领域通用智能。下面我们将从单模态通用、多模态通用、多任务通用等几个方面浅谈领域通用智能需要突破的关键技术。

下一代通用人工智能需要突破的关键技术

单模态通用技术

在单一模态下，实现人工智能通用技术的关键难点是解决小样本条件下模型的学习、推广和推理，以及模型的场景迁移学习等问题。只有这样，已有模型才能实现同一模态、任务下的场景通用。

小样本学习

近年来深度学习范式取得了巨大的成功，但是其对于标注数据的大量需求严重制约了深度神经网络等方法的应用范畴。以图像识别为例，数据集CIFAR-10包含了10种不同类别物体的数万例图像，而ImageNet更是包含多达120万张经人工标注的图片。没有充足的训练数据就很难训练出一个满意的模型。在很多场景下，收集数据往往成为应用深度学习最初也是最大的瓶颈，因为数据收集有时非常昂贵（如医疗数据），有时涉及隐私、机密乃至法律问题。海量的数据需求制约了当前人工智能的发展，也暗示着深度学习的学习方式和理解思维不同于真正通用且高效的人类智能。

在这种情境下，小样本学习应运而生。顾名思义，小样本学习就是通过非常少的样本就能完成某一项新任务，或者学会一个好策略的学习过程。人类的小样本学习是基于大量的生活经验所积累的某种“知识”或者“表征”所达到的。因此，目前机器小样本学习的研究思路也试图通过学习和积累大量的先验知识，从而可以在新的且类似的任务上只通过极少数据的训练学习便可达到很好的表现。这涉及两个重要的问题：（1）如何从经验或者历史数据中提炼知识并进行高效表示；（2）如何利用新任务中少量的数据来准确激活学习模型或智能体在已有任务上学到的特征或者知识。在实际的人工智能应用中，如何界定或者刻画任务间的相似性，如何引入无标签数据和辅助信息（如属性标注），如何构造结构化知识图谱，如何实现知识的融合与迁移，都是小样本学习需要研究的问题。由此可见，小样本学习与下面提到的迁移学习、元学习、多任务学习、持续学习、多模态学习等方面关系密切，其发展需要从这些相关方向中广泛借鉴并吸收思想。

迁移学习

当前人工智能的应用领域已经较为广泛。机器视觉学习中的任务有图像分类、检测、像素分割，自然语言处理中的任务有对话问答、语句生成、关系抽取、文本理解，音频场景的任务有语音识别、声源分离、音频生成等。通常，每一个场景的各种任务之间有着深层的共通性和相似性，因此，真正的人工智能应该拥有“举一反三”的能力。这种举一反三既体现在某一个任务的不同数据集上（例如CIFAR、ImageNet、CoCo等），更体现在不同的任务（例如文本理解和生成）之间。

迁移学习即是实现上述目标的重要途径。在机器学习领域，迁移学习已经有大量的相关研究工作。在早期，迁移学习关注的是训练数据与测试数据存在分布偏移的情况。例如，如果我们有一个对普通话识别准确率很高的模型，那么这个模型应该也可以只需要相对轻松的训练，就能识别带有口音的方言，而不需要重新标注大量的方言数据。深度学习兴起后，迁移学习在视觉任务之间得到了大量应用。研究者们通常首先在大规模的图像分类数据集ImageNet上训练所谓的骨干模型(backbone model)，然后在新的任务（如图像分割、物体检测等）上对骨干网络的参数或者结构进行微调，从而使模型在新的任务上加速收敛并且达到较好的泛化效果。虽然这类方法在特定的情况下确实展示了很好的效果，但对其深层次的理解仍然比较匮乏。有研究表明，在卷积网络中真正具有可迁移的部分依然只是非常底层的滤波器，并没有包含高层复杂的语义特征。最近Open AI公开的GPT-3模型在自然语言处理任务上优异的可迁移性，似乎让人们看到了在海量无标注数据上训练通用、可迁移模型的可能性。

未来，迁移学习的发展既需要对已有的方法进行深层次的理解与反思，更需要跳出当前单模态数据学习的框架，探索与人类学习更为接近的高效知识迁移机制。我们期待跨度更大、知识载体更丰富的迁移学习，例如将视觉、听觉、文字乃至触觉的信息共同编码成为某种表征，实现跨模态数据间的融合学习与迁移。

在线学习

在目前很多领域，训练和学习发生于一个独立而静止的环境，模型完成收敛和测试之后就不再变化。这种情境一般被称作离线学习(offline learning)，意即模型的训练学习过程完全是脱离于前期的收集数据和后期的测试使用的；与之对应的则是在线学习(online learning)，它是一个完全闭环的系统：模型基于目前的参数和架构将预测结果发送给用户，收集用户反馈，并用以更新优化模型，从而完成一个不断接受信息并更新迭代的优化过程。换言之，模型需要动态地接受序列性数据，更新自身，优化表现。

在线学习是一个非常重要的领域，这不仅是因为在实际应用中，很多数据都是以流(stream)形式传递的，根本无法将它们全部存储，还因为在很多具体的实用环境中，针对每一个用户小样本数据的动态更新（例如各种电商和互联网APP有针对性地推荐算法）尤为重要。在具体的工业实践中，常用的有贝叶斯在线学习(Bayesian online learning)、FTL(Follow The Leader)和FTRL(Follow The Regularized Leader)等算法。

目前，在线学习在推荐系统等领域取得了巨大的成功，但是也存在很多问题。首先，目前的在线学习算法大多只能处理简单的数据和小规模问题，对于深度神经网络等含有大量参数和不可解释的复杂模型，以及对于图像和声音等冗余性强、复杂度高的数据往往无能为力，其实际应用有较大局限性；其次，在线学习存在较严重的遗忘问题，在学习新知识或拟合新数据的过程中，倾向于很快遗忘曾经学习的内容，这也大大制约了在线学习算法的发展。

多场景学习

多场景学习指训练数据中包含了来自多个不同场景的样本，且在学习过程中利用该场景信息提升任务性能的学习方法。传统迁移学习中场景自适应方法通常只实现原场景到目标场景的知识迁移，而多场景任务学习鼓励多场景之间的双向知识迁移。现有的多场景学习方法大致可以分为两类：场景独立的方法和场景相关的方法。前者在保留不同场景共有特征或模型的前提下，为每个场景引入独立的模型参数来刻画场景特定的信息^[1]；而后者则在此基础上显式地为不同场景之间的关系建模，通过事先定义或自适应学习场景之间的相似性，调整或约束特定场景的对应参数^[2]。多场景学习在自然语言处理和计算机视觉中获得了广泛应用，例如用于解决多产品的情感分类、多用户的垃圾邮件过滤、多目标的视觉追踪等^[3]。这里的场景分别指不同产品、不同用户以及不同追踪目标。

虽然多场景学习在多个应用场景中展现出了有效性，但还有一系列问题亟须解决：（1）在多场景学习中，如何界定场景以及如何评估场景划分的优劣？（2）多场景学习在什么情况下有效，包括：不同场景需要具备什么样的特点？如何利用场景特有的性质？

知识蒸馏

知识蒸馏是模型压缩和加速的经典技术，近年来逐渐成为一种模型跨场景泛化的重要方法^[4]。在知识蒸馏中，通常有一个已经训练好的“老师模型”和一个待学习的“学生模型”。老师模型和学生模型所面向的场景、任务有可能不同，通过老师模型监督指导的方式，使知识从老师模型迁移到学生模型，从而实现模型的跨场景、跨任务泛化。其中，老师模型提供监督指导的知识包括：基于响应的知识（模型输出）、基于特征的知识（模型中间层）和基于关系的知识（不同层及不同样本间的关系）。常见的知识蒸馏算法包括：对抗蒸馏、多老师蒸馏、基于图的蒸馏、注意力蒸馏、量化蒸馏、终身蒸馏等。近年来，基于知识蒸馏的模型学习在许多跨场景应用中取得了一系列进展。例如，戈尔巴尼(Ghorbani)等人采用基于知识蒸馏的方法，实现了多重口音识别问题的跨场景泛化^[5]；Hao等人在学生–老师学习框架中，引入主动学习的机制，实现了跨任务的分子性质分类^[6]。

虽然知识蒸馏引起了越来越多学者的关注，但其仍面临着一系列关键问题亟待突破，包括：（1）由于知识种类的不同，目前的知识蒸馏方法通常会根据特定的知识种类设计特定的模型，缺乏统一的框架对所有的知识类型建模；（2）知识蒸馏背后的理论基础仍然比较欠缺，需要进一步探索；（3）作为知识蒸馏中的关键，知识迁移的泛化能力和有效迁移的保证尚待理论探索。

知识推理

知识推理是指在计算机或智能系统中模拟人类的推理方式，依据推理控制策略，利用形式化的知识进行机器思维和求解问题的过程。知识推理最初大多采用逻辑推理等符号运算方式进行。近年来，随着深度学习技术的快速发展，基于深度神经网络的知识表示和知识推理受到越来越多的关注。在这样的背景下，陆续出现了不同场景的场景知识图谱。作为一种语义网络，场景知识图谱刻画了场景知识，为场景内的推理任务提供了基础。在场景知识图谱的基础上，研究人员尝试研究具备场景泛化能力的知识推理方法，包括知识图谱的向量化表示、基于翻译的知识推理模型、基于路径的知识推理模型和图神经网络模型等。同时，作为知识推理的应用，基于知识图谱的问答系统取得了长足发展。

基于知识图谱的推理代表了人工智能符号主义和连接主义的融合发展，体现了第三代人工智能的特点。目前，如何将人的逻辑结构和机器擅长的优化或计算进行有机结合，仍然是一个没有解决好的问题。为此，神经符号计算(neural-symbolic computing)开始成为学术界关注的焦点^[7]。一方面，研究人员尝试把体现符号计算的知识图谱向量化，变成适合机器计算的表示方式；另一方面，一些研究人员尝试在知识图谱上构建神经网络模型，图神经网络模型在知识推理任务中已经获得了经验性的成功。最近，为了揭示图神经网络在推理中的作用，Xu等人^[8]引入“算法对齐”(algorithmic alignment)，通过理论分析和实验验证发现，当用于推理的神经网络模型在结构上可以和某个确定性推理算法对齐时，只需要少量的样本即可训练好模型，同时模型的泛化能力也会得到提升。同时，该研究还分析了推理任务的复杂度以及算法对齐对模型样本复杂性的影响，并指出图神经网络可以很好地应对动态规划类型的推理任务。“算法对齐”为我们探索场景泛化的知识推理提供了很好的思路。

多模态通用技术

现实生活中，人类接收的信息模态多种多样，如视觉、声音、文字、嗅觉、触觉等。人类可以综合运用多种模态的信息对事物进行理解和推理。多模态学习是通用智能需要解决的关键问题之一，其任务可以归结为两个基本类：多模态表征学习和模态转换。需要指出的是，这两个问题并不是不相关的，比如表征可以用来做模态转换。下面介绍几种典型的多模态学习任务。

图1 多模态通用技术部分的图标注释

多模态表征学习和融合

多模态表征学习指的是，学习包含多个模态的样本表征，比如视频里可能包含的视觉信息、声音信息等，使得表征能够反映所包含的多个模态信息，以帮助理解识别等任务。最直接的方法是分别处理各个模态，得到每个模态的表征，直接拼接起来作为最后的表征；也可以最终只产生一个表征，把不同模态的表征融合成一个表征；也可以继续把融合的表征做进一步处理，以生成更强的表征；也可以在产生表征的过程中，不停地进行模态之间的信息交互或者融合，以增强每个模态的表征。图2显示了三种代表方案（图1给出了图标的注释）。我们需要研究的问题包括：什么阶段和用什么表征来融合，比如早期融合、后期融合；融合频次；如何融合，比如处理模态间的对齐问题和噪声问题等。

图2 多模态表征学习和融合

多模态协同学习

多模态协同学习指的是利用模态之间的关联，借助其他一个或者多个模态，来帮助某一模态或者多个模态建模和学习。模态之间关联信息非常常见，比如人在说话的时候，既有声音模态，也有视觉（唇语）模态，如人脸表情或者行为动作；比如互联网上的图片，通常有文件名等；比如视频中，视频帧可能有相应的声音（语音或者音乐），也可能有文字脚本。人类对单一模态的理解，也是通过联合其他模态信息进行分析的。

多模态协同学习的要领在于把关联转换成合适的约束，以及从各个模态取什么样的信息形成约束。例如图像和文本有一一对应关系（比如图像及其文件名如图3（a）所示；图3（b）展示的是一种模态之间没有直接链接的关系，模态之间的关系可能是建立在他们是关于同一种内容或者概念的基础上的。更多模态协同学习的建模图可以类似地得到。

借助于物体的属性描述来帮助图像识别建模，某种意义上也是多模态协同学习。例如，对狗的识别，我们清楚地了解狗是由哪些部分组成的，具有怎样的属性特征，比如它有4条腿、尾巴、毛发等。但是在目前主流的物体识别中，这种信息没有加进去，狗只是作为一个标签。而人类从图像识别狗的时候，头脑中有很多狗的图像认知信息，同时也从别的渠道获得狗的其他知识，如组成方式等。所以模型需要把关于狗的额外知识信息加进去，来提升建模识别性能，也会提升模型的鲁棒性。

图3 多模态协同学习（模态内部的函数变换没有显式画出来）

多模态统一表征学习

多模态统一表征学习指的是把不同模态映射到同一个特征空间，使得不同模态在这个特征空间里可以直接比较（比如欧氏距离），比较的时候不用区分特征来自什么模态。图4给出了一个流程示例。这个任务有很多实际价值，比如把一幅图片转变成一段文字或者一首诗，或者将文字转成一副图像；在文字、图片或者视频搜索中，如果图像和文本的特征都转换到同一个空间中，那我们就可以进行统一的搜索，而不再区分不同的模态。

人类具有在不同模态之间快速映射的能力，比如看到一个场景，我们的头脑会快速“搜索”到应景的一首歌、一段文字或者一首诗。多模态统一表示是模拟人类这个能力的一种实现方法。

多模态统一表征问题的主要研究点在于如何定义关系保持和寻找合适的映射，以及对大规模数据和实际问题的探索。目前已经有了实际系统的探索，如小冰写诗。

图4 多模态统一表征学习

模态转换

模态转换指的是把某一种模态转换成另外一种模态，比如把文字转换成图片，给图片配上一段音乐，等等。图5给出了几个模态转换的例子。前面提及的模态表征匹配是其中一种方案，它是一种基于样例的方法，不能产生新的样例。除此以外，编码解码方法和对抗网络等也已经取得不错的进展。这方面可能的研究点包括设计更强的生成模型，如改进编码解码方法和对抗网络；提出新的生成模型；把人类总结出来的经验知识嵌入到转换器。

图5 模态转换。(a) 基于样例的方法， (b) 编码解码方法，（c）直接生成

模态语义对齐

模态语义对齐是指找到不同模态的部件之间的对应关系，比如，给定一段描述和一部电影，人类可以很容易地找到电影中对应该描述的具体位置。我们希望设计出能够自动语义对齐的算法。除了显式对齐以外，有许多方法是隐式对齐，如注意力机制的发展使得网络可以关注一些特定的内容。在此方向上，值得进一步研究和探索的问题包括：（1）多模态数据的数量不足，需要开发更好的小样本对齐算法，或者收集更多的数据。（2）实体概念（比如物体）的对齐已经取得了不错的进展，需要探索更加复杂又有实用价值的对齐任务，包括虚拟概念、动作行为等。（3）如何度量对齐的好坏，也非常具有挑战。

模态通用模块

前述所提几个问题的解决思路中，主要模块基本是模态定制的。人类接受多模态信号，每个模态信号经过一些处理后，可能会进入模态通用模块，不同模态的处理方法是一样的。基于此想法，多模态表征学习和融合、多模态协同学习、多模态统一表示以及模态转换，都可以通过通用模块来实现。其基本思路是，先对每个模态处理得到初始表征，然后进入不同任务的通用处理模块。图6~图9给出了几个通用模块的可能方法。图9给出了一个可能的应用，与源和目标模态无关的通用模态转换器，比如先从源模态数据中提取一个源初始表征，然后该表征进入一个与模态无关的转换器，生成一个目标表征，最后再转换成目标模态上的一个实例。此外还可以使一些特有属性在已有的模态之间转换，如特定风格、状态等，同时推广到通用的转换器上。

图6 基于通用模块的多模态表征融合

图7 基于通用模块的多模态协同学习

图8 基于通用模块的多模态统一表征学习

图9 基于通用模块的模态转换

多任务通用技术

人工智能模型或算法具有通用性的一个必要条件是任务泛化能力，即模型或算法可以同时处理不同的任务，例如一个人工智能模型不仅可以识别人脸，也能与人对话，还可以进行自动翻译等。目前的人工智能模型几乎都是任务专用模型，例如，为分类任务设计的最大支持向量机和卷积神经网络，为序列判别与生成任务设计的隐马尔可夫模型和循环神经网络等，一个模型只能做一个任务。一个模型无论在某个任务上的智能水平有多高，对于其他任务来说都是“智障”。因此，通往下一代人工智能必须要攻克模型或算法的任务泛化难题。笔者认为可以从以下四个方向进行突破。

多任务统一模型框架

多任务统一模型框架是将若干任务形式化到同一个人工智能模型框架中。例如，该框架既可以做分类识别任务，也可以做生成任务。最近，自然语言处理领域在这个方向上有一些进展。美国艾伦人工智能研究所(Allen Institute for AI)提出的GPT-3模型^[9]实质上是将大部分自然语言理解问题和所有自然语言生成问题形式化为一个语言模型。语言模型通过已经说过的片段预测下一个词语，并且可以永远预测下去。对于自然语言处理领域中的分类任务，例如情感分类，输入一个文本，输出一个情感类别，语言模型可以将输入文本视为已经说过的话，而情感类别预测被视为语言模型下一个时刻的输出，从而所有的分类任务被形式化为一个语言模型问题。机器翻译任务中的源语言句子被视为语言模型已经说过的片段，目标语言生成则是语言模型以源语言句子为历史上下文不断地采样生成一句话。因此只要给定任务描述和一定的上下文提示，就可以完成很多自然语言处理任务，例如面向问题的搜索、问答和聊天机器人，基于文本描述的代码生成，特定语言（英法、英德）机器翻译，文本自动纠错和谱曲等。真正实现了一个模型完成多种任务的目标。

但是，这个模型离任务泛化智能还有不小的距离。一方面，语言模型还无法囊括所有任务，例如命名实体识别任务。尽管在其他领域（语音、视觉等）有些尝试，如面向视觉识别的通用神经网络结构HRNet，但是找到一个通用建模框架仍然不容易；另一方面，这类模型仍然缺乏通用智能所必备的连续学习等能力。因此，突破这些难题还需结合多任务学习、元学习和连续学习等。

多任务学习

多任务学习是通过学习不同的任务中包含的共同知识来提升各个任务的性能，其基本思想是学习共享知识表示来补充不同任务、场景和数据的信息和知识，提升模型的泛化效果。根据所包含任务的不同，多任务学习可以分为多任务监督学习、多任务无监督学习、多任务半监督学习以及多任务强化学习等。其中，多任务监督学习是最常见的类型，它是指多任务学习中每个任务都是监督学习任务，学习从输入到输出之间的映射关系。近年来深度学习加快了多任务学习的研究进展，通过参数和底层语义表示共享的方式实现不同任务之间的知识共享和迁移^[10]。例如Collobert和Weston^[11]将自然语言处理领域中的多种任务形式化为一个基于深度神经网络的多任务学习框架，通过共享底层网络参数实现多种任务的知识共享，提升模型的任务泛化能力。在计算机视觉领域，Long等人^[12]提出深度关系网络，通过共享卷积和特定任务层，以及设计矩阵先验，让模型自动学习任务之间的关系。

实际上多任务学习仍然面临一系列挑战，包括：（1）如何度量任务之间的相似性；（2）如何基于理论方法识别和分析不同任务之间可以共享的部分；（3）在实际场景中，任务往往不是同时出现的，如何能够在新任务不断新增的场景下，实现多任务框架的增量学习与连续学习也是实现任务泛化智能的必经之路。

元学习

元学习是一种学习如何学习新任务的方法(learning to learn)。传统的机器学习可以分为三个步骤：（1）定义一个函数集合（模型结构）；（2）定义优化目标；（3）根据优化目标从函数集合中找出最优的函数（模型参数）。在这个过程中，所有步骤都由人工预先定义，而元学习旨在通过寻找一个函数F，来分别学习三个步骤中的一个或多个步骤。在元学习的学习过程中，首先定义一系列F的候选；然后定义对F的优化目标；最后根据评价指标找出最优的函数F。元学习希望学到的知识能够在新任务上更快更好地学习，因此元学习的关键是优化目标的定义。元学习的训练集和测试集都是一系列任务，每个任务的训练数据称为支持集，测试集称为查询集。元学习中的优化目标定义为，其中 lⁿ是在任务n上的损失，即学习在所有任务上损失最小的策略。

目前，元学习取得了较好的发展，例如以模型未知元学习为代表的基于优化的方法^[13]和以孪生网络为代表的基于度量的方法^[14]，在文本和图像分类等任务中取得了一定的进展，尤其针对新任务是小样本的学习任务(one-shot or few-shot learning)。例如基于度量的方法会对每个样本学习一个嵌入表示，并学习不同类别（任务）之间表示的距离度量。如孪生网络中，使用一个卷积神经网络来编码查询集中的图片和支持集中的图片，然后利用编码后的图片嵌入表示度量不同类别之间的距离。

元学习还处于快速发展阶段，仍需要解决一系列问题：（1）由于元学习主要针对小样本学习问题，样本带来的不确定性较大，缺乏对不同任务先验知识的结合；（2）不同任务之间存在差异，如梯度方向冲突导致基于优化的方法难以训练；（3）元学习在相似任务上表现良好，但在差异比较大的任务上泛化性较差。为了解决上述问题，需要对学习的过程进一步抽象，如：学习元学习的抽象过程；与终身学习相结合，降低对相似任务集的依赖，通过无监督元学习和在线元学习的方式来提高泛化性等。

连续学习

人类和动物能够不断学习新技能，且新技能、新知识的学习不以必须遗忘旧知识为代价，这种能力被称为连续学习，它对于人工智能系统和自主智能体处理现实世界中的连续可变信息流至关重要。然而，对于现有的基于深度学习的人工智能模型而言，从非平稳的数据分布中连续学习可用信息，通常会引发对之前学习知识的干扰甚至遗忘，这使得鲁棒的连续学习是下一代人工智能模型面临的一大挑战。主流的连续学习模型解决遗忘问题的方法主要有三大类：第一类为模型驱动的方法^[15~18]，通过对模型基础结构的改善来避免遗忘问题，其中被广泛运用的思路是识别模型参数中完成旧任务的重要部分并对其施加保护，防止新任务的学习对这部分权重的扰动。这种思路可通过修改权重更新范式或损失函数结构等技术手段达成。第二类为数据驱动的方法^[19~20]，通过在新任务的学习中重现旧任务的数据分布来防止遗忘，其中被广泛运用的方法是存储或生成旧任务的训练样本，混入新任务的训练数据中一起供模型学习。第三类方法结合了前两类方法的思路，同时应用模型结构更改和训练数据扩充方法。

当前连续学习研究中仍存在一些亟待解决和突破的问题：（1）大部分连续学习工作测试的任务序列中任务数量有限，无法有效模拟现实场景中模型可能面对的大量异构任务数据。连续学习模型在训练大量任务后能否保持在小容量任务序列上的抗遗忘表现值得探讨；（2）大部分连续学习工作针对的任务序列中的任务类型单一，往往为同一种类型的任务。而人类在连续学习过程中对任务类型并没有显式要求。那么如何使连续学习算法能够应对不同类型的任务值得关注。人类及高等动物高效的连续学习能力仍然是主流人工智能系统无法企及的。在人类及高等动物一生的生命活动进程中，需要处理大量来自周边环境的分布复杂、模态多样、噪音庞大、特征冗余的流式信息。与此相比，当前主流连续学习算法所能应对的场景还太过单调。如果能够从人脑应对连续学习的机制中获得启发，或许能对算法改进有所助益。其中，脑神经记忆系统和脑应对多源、多模态输入的处理系统，可能对提升连续学习算法的泛化能力及鲁棒性提供较多启发。

实现通用智能的道路还很曲折

下一代通用人工智能的核心问题是 “泛化”，包括场景泛化、模态泛化、任务泛化等。即便如此，距离真正意义上的类人智能还有很长的路要走。

常识与因果推理

现有依靠大数据训练的人工智能模型仍然依赖数据之间的关联性实现目标任务的判别。人之所以具备通用智能，是因为人在感知世界的过程中，将各种感知到的数据加工成了知识。在处理各种场景、语言、模态下的任务时，信息处理在知识层面完成，因此完成知识迁移和推理，实现智能的通用。这其中的两个核心问题在于知识的表征和因果的推断。（1）人类用到的知识如何表示？现有以知识图谱为代表的知识系统大多仅仅能够对实体、关系类型的客观知识进行建模。对于事件、场景、规则以及常识等复杂结构知识以及主观性知识，应该如何表示、获取和应用，仍然是一个亟待解决的难题。（2）基于各种类型知识，挖掘数据之间的因果关系，实现因果推断，也是目前人工智能算法所面临的一个难点。

需要和环境交互

现有主流人工智能技术大多是基于大数据训练的。训练数据的增加确实带来了模型效果和泛化能力的巨大提升。但是人类感知世界、认知世界并不是一个简单的输入和训练的过程，而是需要不断地和环境交互、试错。美国华盛顿大学教授埃米莉(Emily)在ACL2020上发表的最佳主题论文“Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data”指出：仅仅依靠大数据训练，即使是预训练模型框架，仍然是基于具体任务驱动，机器仍然不能真正理解语言，需要得到环境的反馈。2020年DeepMind联合本希奥(Bengio)等多位学者联合撰文“Experience Grounds Language”，指出机器理解语言可以分为五个层次，我们目前仅处于第二层次（基于大数据训练的处理模型），真正理解语言还需要融合多模态数据、知识的支撑以及环境的交互等三个层次。因此，构建通用的智能模型，将其放在环境中不断地交互和优化是通用人工智能实现突破的关键所在。

虚拟模拟器

一个AGI系统是否有效，关键在于评价。已有研究者设定了诸如视频游戏学习 (general video-game learning)、学前儿童学习(preschool learning)、阅读理解(reading comprehension)、故事或者场景理解(story or scene comprehension)、沃兹尼亚克试验(Wozniak test)等任务。但是这些任务设置仍然是面向一个具体的任务展开，真实环境下难以实现，具有伪通用性。因此，如何针对各种各样特定的问题设计虚拟模拟器，对现实世界环境进行模拟，智能体(agent)通过环境的反馈（图像、视频、声音或者其他多传感器信号）实现动作的指导、学习和评价，对于实现通用人工智能至关重要。

脚注

¹ https://en.wikipedia.org/wiki/Artificial_general_intelligence。

² 我们用场景取代领域(domain)，以免与领域通用智能中的领域混淆。

作者简介

刘康

CCF专业会员。中国科学院自动化研究所研究员。主要研究方向为知识图谱与问答系统。kliu@nlpr.ia.ac.cn

黄高

CCF专业会员。清华大学助理教授。主要研究方向为机器学习和计算机视觉。gaohuang@tsinghua.edu.cn

沈华伟

CCF高级会员、学术工委委员。中国科学院计算技术研究所研究员。主要研究方向为社交媒体计算与网络数据挖掘。

shenhuawei@ict.ac.cn

王井东

CCF高级会员、CCCF动态编委、CCF计算机视觉专委会常委。微软亚洲研究院首席研究员。主要研究方向为计算机视觉、深度学习及多媒体搜索。welleast@outlook.com

张家俊

CCF专业会员、自然语言处理专委会委员。中国科学院自动化研究所研究员。主要研究方向为机器翻译和自然语言处理。

jjzhang@nlpr.ia.ac.cn

参考文献

[1] Rebuffi S A, Bilen H, Vedaldi A. Efficient parametrization of multi-domain deep neural networks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018: 8119–8127.

[2] Joshi M, Cohen W W, Dredze M. Multi-Domain Learning: When Do Domains Matter?[C]// Joint Conference on Empirical Methods in Natural Language Processing & Computational Natural Language Learning. Association for Computational Linguistics, 2012.

[3] Nam H, Han B. Learning multi-domain convolutional neural networks for visual tracking[C]// Proceedings of the IEEE conference on computer vision and pattern recognition.

[4] Hinton G, Vinyals O, and Dean J. Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531. 2015.

[5] Ghorbani S, Bulut A, and Hansen J. Advancing multi-accented lstm-ctc speech recognition using a domain specific student-teacher learning paradigm[C]// 2018 IEEE Spoken Language Technology Workshop (SLT).

[6] Hao Z, Lu C, Huang Z, et al. ASGN: An Active Semi-supervised Graph Neural Network for Molecular Property Prediction[C]// KDD'20: The 26th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. ACM, 2020.

[7] Garcez A D, Gori M, Lamb L C, et al. Neural-Symbolic Computing: An Effective Methodology for Principled Integration of Machine Learning and Reasoning[J]. 2019.

[8] Xu K, Li J, Zhang M, et al. What can neural networks reason about? [C]// ICLR 2020.

[9] Brown T B, Mann B, Ryder N, et al. Language Models are Few-Shot Learners. arxiv.org/abs/2005.14165. 2020.

[10] Ruder S. An Overview of Multi-Task Learning in Deep Neural Networks. arxiv.org/abs/1706.05098. 2017.

[11] Ronan Collobert and Jason Weston. 2008. A unified architecture for natural language processing: Deep neural networks with multitask learning. In Proceedings of the 25th international conference on Machine learning. 2008: 160-167.

[12] Mingsheng Long, Zhangjie Cao, Jianmin Wang, Philip Yu. 2017. Learning Multiple Tasks with Multilinear Relationship Networks. In Advances in Neural Information Processing Systems, 2017.

[13] Chelsea Finn, Pieter Abbeel, and Sergey Levine. 2017. Model-agnostic meta-learning for fast adaptation of deep networks. In Proceedings of International Conference on Machine Learning, 2017.

[14] Gregory Koch, Richard Zemel, and Ruslan Salakhutdinov. 2015. Siamese neural networks for one-shot image recognition. In Proceedings of ICML deep learning workshop.

[15]Rahaf Aljundi, Francesca Babiloni, Mohamed Elhoseiny, Marcus Rohrbach, and Tinne Tuytelaars. 2018. Memory aware synapses: Learning what (not) to forget. In Proceedings of the European Conference on Computer Vision (ECCV), pages 139–154.

[16]James Kirkpatrick, Razvan Pascanu, Neil C. Rabinowitz, Joel Veness, Guillaume Desjardins, Andrei A. Rusu, Kieran Milan, John Quan, Tiago Ramalho, Agnieszka Grabska-Barwinska, Demis Hassabis, Claudia Clopath, Dharshan Kumaran, and Raia Hadsell. 2016. Overcoming catastrophic forgetting in neural networks. Proceedings of the National Academy of Sciences of the United States of America, 114 13:3521–3526.

[17]Sang-Woo Lee, Jin-Hwa Kim, Jaehyun Jun, Jung-Woo Ha, and Byoung-Tak Zhang. 2017. Overcoming catastrophic forgetting by incremental moment matching. In Advances in neural information processing systems, pages 4652–4662.

[18]David Lopez-Paz and Marc’Aurelio Ranzato. 2017. Gradient episodic memory for continuum learning. In Advances in Neural Information Processing Systems 2017.

[19]Nicolas Y Masse, Gregory D Grant, and David J Freedman. 2018. Alleviating catastrophic forgetting using context-dependent gating and synaptic stabilization. Proceedings of the National Academy of Sciences, 115(44):E10467–E10475.

[20]Cyprien de Masson d’Autume, Sebastian Ruder, Lingpeng Kong, and Dani Yogatama. 2019. Episodic memory in lifelong language learning. In Advances in Neural Information Processing Systems, pages 13122–13131.

特别声明：中国计算机学会(CCF)拥有《中国计算机学会通讯》(CCCF)所刊登内容的所有版权，未经CCF允许，不得转载本刊文字及照片，否则被视为侵权。对于侵权行为，CCF将追究其法律责任

CCF颁奖典礼限量门票开售

点击“阅读原文”，加入CCF

继续滑动看下一个