多示例学习学术资讯 - 科技工作者之家

在机器学习中，多示例学习(Multiple Instance Learning 简称 MIL)是由监督型学习算法演变出的一种方法，定义“包”为多个示例的集合，具有广泛的应用。学习者不是接收一组单独标记的实例，而是接收一组带标签的包，每个包含许多实例。在多实例二进制分类的简单情况下，如果包中的所有实例都是否定的，则可以将包标记为否定。另一方面，如果袋子中至少有一个是正面的，则袋子被标记为阳性。

机器学习根据训练数据的类型和变化，机器学习可以大致分为三个框架：监督学习，无监督学习和强化学习。多实例学习（MIL）属于监督学习框架，其中每个训练实例都具有离散或实值的标签。 MIL处理训练集中标签知识不完整的问题。更准确地说，在多实例学习中，训练集由标记为“包”组成，每个包都是未标记实例的集合。如果袋子中的至少一个是阳性，则袋子被正面标记，如果袋子中的所有实例都是阴性，则袋子被贴上标签。 MIL的目标是预测新的，看不见的袋子的标签。

历史Keeler等人在他20世纪90年代早期的工作中是第一个探索MIL领域的人。实际术语多实例学习是在20世纪90年代中期由Dietterich等人引入的。他们正在调查药物活动预测的问题。他们试图创建一种学习系统，通过分析已知分子的集合，可以预测新分子是否有资格制造某种药物。分子可以具有许多替代的低能状态，但是只有一种或一些能够制造药物。之所以出现这个问题，是因为科学家们只能确定分子是否合格，但是他们无法确切地说出其低能量形状究竟是由哪种原因造成的。

提出的解决这个问题的方法之一是使用有监督的学习，并将合格分子的所有低能量形状视为正向训练实例，而将不合格分子的所有低能量形状视为负实例。 Dietterich等。表明这种方法会产生很高的假阳性噪声，从所有被错误标记为阳性的低能量形状，因此并没有真正有用1。他们的方法是将每个分子视为标记袋，并将该分子的所有替代低能量形状视为袋中的实例，没有单独的标签。从而制定多实例学习。

解决Dietterich等人的多实例学习问题。提出了三轴平行矩形（APR）算法。它试图搜索由特征结合构造的适当的轴平行矩形。他们在Musk数据集上测试了算法，这是药物活动预测的具体测试数据，也是多实例学习中最常用的基准。 APR算法取得了最好的结果，但应该注意到APR的设计考虑了Musk数据。

多实例学习的问题不是药物发现所特有的。 1998年，Maron和Ratan发现了多实例学习在机器视觉中进行场景分类的另一种应用，并设计了Diverse Density框架。给定图像，实例被视为一个或多个固定大小的子图像，并且实例包被视为整个图像。如果图像包含目标场景（例如瀑布），则标记为正图像，否则为负图像。可以使用多实例学习来学习表征目标场景的子图像的属性。从那时起，这些框架已经应用于广泛的应用，从图像概念学习和文本分类到股票市场预测。

特征多示例学习中，定义“包”为多个示例的集合。与其他Classification方法不同，此方法仅对“包”作标签，“包”中的示例并无标签。定义“正包”：包中至少有一个正示例；反之，当且仅当“包”中所有示例为负示例时，该“包”为“负包”。

多示例学习的目的：①归纳出单个示例的标签类别的概念。②计算机通过对这些已标注的“包”学习，尽可能准确地对新的“包”的标签做出判断。

我们就拿图像分类举个例子：图像分类是基于图像内容来确定图像目标的类别。例如：一张图片上存在“sand”、"water"等各种示例，我们研究的目标是"beach"。在多示例学习中，一张图像作为一个“包”：。是特征向量（也就是我们所说的示例），是从图像中对应的第i个区域中提取出来的，总共存在N个示例区域。那么，“包”中当且仅当"sand"和"water"都存在时，此“包”才会作上“beach”标签。显然，利用这种方法来研究图像分类就考虑到了图像中元素之间关系，相比单示例方法在某些情况下得出的分类效果更好。

多示例学习方法是20世纪90年代人们在研究药物活性时提出来的。1997年，T. G. Dietterich 等人对药物活性预测问题进行了研究。其目的是构建一个学习系统，通过对已知适于或不适于制药的分子进行学习，尽可能正确地预测其他新的分子是否适合制药。由于每个分子都有很多种可能的稳定同分异构体共存，而生物化学家只知道哪些分子适于制药，并不知道其中的哪一种同分异构体起到了决定性作用。如果使用传统的有监督学习的方法，将适合制药的分子的所有稳定同分异构体作为正样本显然会引入很多噪声。因此，提出来多示例学习的问题。

多示例学习自提出十几年以来，一直成为研究的热点。从最初T. G. Dietterich等人提出该方法时给出的三个基于轴平行矩形的方法，到后来的DD、EMDD、Citation-kNN，以及SVM、神经网络、条件随机场方法在多示例学习中的运用。

多示例学习具有广泛的应用，例如：图像检索、文本分类等。

本词条内容贡献者为:

王沛 - 副教授、副研究员 - 中国科学院工程热物理研究所