转移模型学术资讯 - 科技工作者之家

转移模型是深度学习中转移参数的一种应用模型。

层状结构的深度学习模型深度学习是一个大型的神经网络，同时也可以被视为一个流程图，数据从其中的一端输入，训练结果从另一端输出。正因为是层状的结构，所以你也可以打破神经网络，将其按层次分开，并以任意一个层次的输出作为其他系统的输入重新展开训练。

深度学习中的转移模型模型需要的训练数据量和模型规模之间存在一个有趣的线性正相关关系。其中的一个基本原理是，模型的规模应该足够大，这样才能充分捕捉数据间不同部分的联系（例如图像中的纹理和形状，文本中的语法和语音中的音素）和待解决问题的细节信息（例如分类的数量）。模型前端的层次通常用来捕获输入数据的高级联系（例如图像边缘和主体等）。模型后端的层次通常用来捕获有助于做出最终决定的信息（通常是用来区分目标输出的细节信息）。因此，待解决的问题的复杂度越高（如图像分类等），则参数的个数和所需的训练数据量也越大。

迁移模型的引入在大多数情况下，面对某一领域的某一特定问题，你都不可能找到足够充分的训练数据，这是业内一个普遍存在的事实。但是，得益于一种技术的帮助，从其他数据源训练得到的模型，经过一定的修改和完善，就可以在类似的领域得到复用，这一点大大缓解了数据源不足引起的问题，而这一关键技术就是迁移学习。

Github 上公布的“引用次数最多的深度学习论文”榜单，深度学习领域中有超过 50% 的高质量论文都以某种方式使用了迁移学习技术或者预训练（Pretraining）。迁移学习已经逐渐成为了资源不足（数据或者运算力的不足）的 AI 项目的首选技术。但现实情况是，仍然存在大量的适用于迁移学习技术的 AI 项目，并不知道迁移学习的存在。如下图所示，迁移学习的热度远不及机器学习和深度学习。2

本词条内容贡献者为:

李斌 - 副教授 - 西南大学