欠完备自编码器学术资讯 - 科技工作者之家

自编码器（autoencoder）是神经网络的一种，经过训练后能尝试将输入复制到输出。从自编码器获得有用特征的一种方法是限制 h 的维度比 x 小，这种编码维度小于输入维度的自编码器称为欠完备（undercomplete）自编码器。学习欠完备的表示将强制自编码器捕捉训练数据中最显著的特征。

简介从自编码器获得有用特征的一种方法是限制 h的维度比 x 小，这种编码维度小于输入维度的自编码器称为欠完备（undercomplete）自编码器。学习欠完备的表示将强制自编码器捕捉训练数据中最显著的特征。

学习过程可以简单地描述为最小化一个损失函数L(x,g(f(x)))，其中 L 是一个损失函数，惩罚g(f(x)) 与 x 的差异，如均方误差。当解码器是线性的且 L 是均方误差，欠完备的自编码器会学习出与 PCA相同的生成子空间。这种情况下，自编码器在训练来执行复制任务的同时学到了训据的主元子空间。如果编码器和解码器被赋予过大的容量，自编码器会执行复制任务而捕捉不到任何有关数据分布的有用信息。

自编码器自编码器是一种无监督学习算法，其输出能够实现对输入数据的复现。自编码器的概念是 Rumelhart等最早提出的，自编码器是一种数据压缩算法，它使用编码器实现数据压缩，使用解码器实现解压缩。编码阶段将高维数据映射成低维数据，减少数据量；而解码阶段正好相反，从而实现对输入数据的复现。2006 年，Hinton 等将其作为一种降维方法发表在 Science 上。文章通过使用“互补先验”的方法推导出一个快速贪婪算法，逐层学习深度定向网络，然后对整个网络的参数进行优化，改善了传统方法易陷入局部极小的情况，由此产生了深度自编码器。Bengio 等在深度自编码器的研究过程中，加入了稀疏性的限制，

使用尽可能少的神经元学习提取有用的数据特征，进而产生了稀疏自编码器。Vincent 等为了提高算法的健壮性，在输入数据中加入了噪声，形成了去噪自编码器。2010年，Rifai等在维度处理的过程中加以限制，提出了收缩自编码器1。

特征表达及数据降维真实世界中存在大量非常复杂的事物和现象，通常我们希望能够以一种更加简洁且完整的方式去表示一个事物或现象，这就需要去揭示隐藏在复杂表象下的事物或现象的客观规律。

从某个事物或现象（例如天气状况）中抽象出一些数据（如温度、湿度、风力等），通过多个变量来表示或描述一个现象，这个多维变量叫做特征。特征作为机器学习系统的原材料，

对于最终模型的影响毋庸置疑。机器学习算法的性能在很大程度上取决于数据表达或特征表达的选择，当数据能够被很好地表达为特征时，即便使用简单的模型也可达到满意的精度。故在实际应用机器学习算法时，很重要的一个步骤是怎样预处理数据以得到一个好的特征表达。

真实世界中的数据通常是高维的。对高维数据的处理包括两点特性。第一点是“维数灾难”，它给后面的数据处理带来困难，是处理高维数据时遇到的最大问题之一；第二点是“维数福音”，高维数据中包含着关于客观事物和现象的极为全面和丰富的信息，蕴含着解决问题的可能性，当然也含有很多冗余信息。作为一类普遍存在的规律，在大多数情况下我们观察到的从表面上看是高维的、复杂的事物或现象，实际上是可以用少量的简单变量来支配的。

处理高维数据的关键是在众多的因素中找到事物的本质规律。表达转换指的是将原始表达转换为另一个不同的表达，表达维数小于原始表达维数的情形。在模式识别系统中，使用到的特征很重要，经常需要将高维的冗余的原始特征转换为低维的保留有效信息的特征，也就是特征转换。特征转换可以分为两类：第一类是“特征选择”，即从原始表达中选择一个子集作为新的表达；第二类是“特征抽取”，即将原始表达投影到一个低维特征空间中以得到一个更加紧凑的表达。

本词条内容贡献者为:

李嘉骞 - 博士 - 同济大学