基于特征映射方法

科技工作者之家 2020-11-17

在迁移学习中,基于特征映射方法是把各个领域的数据从原始高维特征空间映射到低维特征空间,在该低维空间下,源领域数据与目标领域数据拥有相同的分布。这样就可以利用低维空间表示的有标签的源领域样本数据训练分类器, 对目标测试数据进行预测。 该方法与特征选择的区别在于这些映射得到的特征不在原始的特征当中,是全新的特征。

简介特征映射,也称降维,是将高维多媒体数据的特征向量映射到一维或者 低维空间的过程。在高维特征数据库中,高维数据 存在数据冗余。由于索引结构的性能随着维数的增 大而迅速降低,在维数大10以后,性能还不如顺 序扫描,形成维数灾难。降维后,应用成熟的低维索引技术,以提高性能。基于特征映射方法简单来说是指将数据从高维空间映射到低维空间,然后用分类器进行分类,为了得到较好的分类性能。在迁移学习领域,已经有不少学者提出了不同的方法,例如潘嘉林等人提出了一种新的维度降低迁移学习方法, 他通过最小化源领域数据与目标领域数据在隐性语义空间上的最大均值偏差(Maximun Mean Discrepancy),求解得到降维后的特征空间。在该隐性空间上,不同的领域具有相同或者非常接近的数据分布,因此就可以直接利用监督学习算法训练模型对目标领域数据进行预测。顾全泉(Quanquan Gu)等人探讨了多个聚类任务的学习(这些聚类任务是相关的), 提出了一种寻找共享特征子空间的框架。在该子空间中,各个领域的数据共享聚类中心,而且他们还把该框架推广到直推式迁移分类学习。 布利泽 (Blitzer)等人 提出了一种结构对应学习算法(Structural Corresponding Learning,SCL)。该算法把领域特有的特征映射到所有领域共享的“轴”特征,然后就在这个 “轴” 特征下进行训练学习。 结构对应学习算法已经被用到词性标注以及情感分析中1。

特征映射方法基于低维投影的降维方法

主成分分析(principal component analysis,PCA): 是使用最为广泛的线性降维方法之一,它先 将数据投影到某一个主成分上,然后丢掉具有较小方差的那些维的信息,寻找具有最大方差的线性特征集,达到降维的目的。该方法的概念简单、计算方便,但是,没有统一的标准来确定主成分及其数 量。

投影法(projection pursuit,PP):其基本思想 是将高维数据投影到低维(一般是1~3维)子空间上,通过分析和研究投影数据以达到了解原始数据的目的。该方法最早产生于20世纪70年代初,Kruskal将数据投影到低维空间,通过极大化某个指标,以发现数据的聚类结构。聚类效果取决于索引函数的选择和优化算法。该方法可有效排除噪声数据的干扰,但是,计算量大,不适用于高度非线性数据。

基于神经网络的降维方法

自动编码神经网络法(auto-encoder networks):是一种前向反馈网络。该网络把高维空间的输入向量映射到具有最少神经元的一层的激励 所表示的低维空间中,而具有最少神经元的一层的下一层再把低维表示映射到D维空间。

自组织映射法(self-organizing mapping):对每个聚类都赋予降维后的空间中的固定位置,并根据该位置用邻居函数来评价聚类之间的近似度。邻居函数的值越大聚类之间的接近程度越高。根据邻居函数值,高维数据被映射到最优聚类的位置,实现高维数据的降维。该方法能很好地用于高维数据可视化。

生成建模法(generative modelling): 是基于混合密度估计的,所有的聚类都用高斯混合密度表示。

基于数据间相关度的降维方法

多维比例法(multi-dimensional scaling): 是 寻找保留了数据主要特征的低维空间,在该空间里 的数据点不仅和高维空间中的原数据对应,并且保持原数据点之间的欧式距离的差异度。适用于原始数据的距离矩阵已知的情况。

随机邻居嵌入法(stochastic neighbor embedding): 不直接使用数据间的差异,而是用它们定义转换矩阵,该矩阵的每一行都包含了与一个数据点相关联的分布,该矩阵则定义了数据点集上的随机遍历。

等容积法(isometric mapping): 是对多维比例法的扩展,区别在于采用测地距离表示两点的差异。

局部线性嵌入法(locally linear embedding): 是非线性降维方法,其中高维空间由许多描述它的本质属性并且相互邻接的局部线性块组成。该方法有效地获取高维数据的本质特征,计算方法简单、直观。

拉普拉斯特征映射法(Laplacian eigen maps):拉普拉斯特征映射法首先将数据点与其最近邻居连接起来以构建一个邻居图,然后给图的每条边均赋予相应的权值,最后寻求数据集的嵌入坐标表示,并保证嵌入点之间的平方距离最小,从而得 到降维空间中的最优低维表示向量。

基于分形的降维方法

如果一个数据集的部分分布结构或属性与整体 分布相似,则称该数据集是分形的。基于分形的降 维方法首先要比较准确地估计出数据的本征维,包 括分数维,进而进行降维处理。

迁移学习随着计算机技术的快速发展,机器学习在理论研究和实践应用两个方面都取得了巨大进步。为了保证训练得到的分类模型具有可信的分类效果,传统的机器学习方法通常假设数据的生成机制不随环境改变,即要求源域数据和目标域数据具有相同的分布。然而在机器学习的实际应用领域中,如自然语言处理、大数据分析、生物信息技术、自动控制等,这一假设通常因为过于严格而不能成立。迁移学习(Transfer Learning,TL)的出现打破了这一限制要求,只要源领域和目标领域之间具有一定的关联关系,在目标领域分类模型训练时就可以借助从源领域数据和特征中已经提取的知识,实现已学习知识在相似或相关领域间的复用和迁移,使传统的从零开始学习变成可积累学习,不仅降低了模型训练的成本,而且可以显著提高机器学习的效果。因此迁移学习可以帮助人们处理一些新的应用场景,使机器学习在没有充足可用标签数据和规模化应用时也能够实现。迁移学习作为一种新的学习框架受到越来越多学者的关注和研究。美国国防部DARPA机器人大赛文档系列给出了迁移学习的基本定义:利用事先学习的知识和技能来识别新任务的学习能力。迁移学习是运用已存有的知识对不同但相关领域问题进行求解的新的一种机器学习方法。 它放宽了传统机器学习中的两个基本假设, 目的是迁移已有的知识来解决目标领域中仅有少量或甚至没有有标签样本数据时的学习问题。

迁移学习广泛存在于人类的认知学习活动中,比如一个人如果会使用 C++编程,那么他很容易就会掌握 Java 编程语言;一个人要是会拉小提琴,那么他就能够轻松地把拉小提琴的相关音乐知识迁移到学习钢琴中去。而且在迁移学习的两个领域之间,可以共享的信息越多、相似度越高,知识迁移学习的效果就越好,反之,效果越差,甚至会给目标领域数据的学习带来不好的影响,即产生“负迁移”现象。

本词条内容贡献者为:

方正 - 副教授 - 江南大学

科技工作者之家

科技工作者之家APP是专注科技人才,知识分享与人才交流的服务平台。