无监督训练

科技工作者之家 2020-11-17

无监督训练(或者叫非监督学习)则是另一种。它与监督训练的不同之处,在于我们事先没有任何训练样本,而需要直接对数据进行建模。

简介机器学习如果按照训练样本标签的有无可以分为以下两种常用方法。有监督训练和无监督训练。

以机器学习中的分类(classification)来说,输入的训练数据有特征(feature),有标签(label)。在分类过程中,如果所有训练数据都有标签,则为有监督学习(supervised learning)。如果数据没有标签,显然就是无监督学习(unsupervised learning)了,也即聚类(clustering)。

监督训练,就是通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,也就具有了对未知数据进行分类的能力。典型的例子就是KNN、SVM。

无监督训练(或者叫非监督训练)则是另一种。它与监督训练的不同之处,在于我们事先没有任何训练样本,而需要直接对数据进行建模。无监督训练里典型的例子就是聚类了。1

特点(1)贪婪:基于贪婪算法,独立优化问题解的各方面,但是每次只优化一个方面,而不是同时同步全局优化。

(2)逐层:各个独立方面可以看做网络的每一层,每次训练的第i层,都会固定前面的所有层。

(3)无监督:每次训练都是无监督表征学习算法。

(4)预训练:训练前的一步操作。

无监督训练的实现模型(1)自动编码器,优点是技术简单重建输入,可堆栈多层,直觉型基于神经科学研究

缺点是贪婪训练每一层,没有全局优化,比不上监督学习表现,层一多会失效

(2)聚类学习优点聚类相似输出可被多层堆栈,直觉型且基于神经科学研究。

缺点是贪婪训练每一层没有全局优化,在一些情况下比不上监督学习的表现,层数增加会失效,收益递减。特别的,受限RBMs,DBMs,DBNs难以训练,而配分函数的数值难题,还未普遍用来解决问题。

(3)生成模型,尝试在同一个时间创建一个分类网络和一个生成图像模型。2

本词条内容贡献者为:

李晓林 - 教授 - 西南大学

科技工作者之家

科技工作者之家APP是专注科技人才,知识分享与人才交流的服务平台。