学会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播,通过短篇文章让读者用母语快速了解相关学术动态,欢迎关注和投稿~
◆ ◆ ◆ ◆
基于条件偏移的自适应学习
◆ ◆ ◆ ◆
现有的多数自适应学习方法基于协变量偏移假设,容易引发“负迁移”问题,导致模型的预测性能不足 [1]。如图1所示,相比于协变量偏移校正,条件偏移校正可以在迁移知识的同时保留数据的本征局部结构。但是,当前有关条件偏移假设和条件分布自适应建模的研究相对较少,缺乏条件分布上的可计算与有效度量,从而无法触及“条件分布”这一本质层面。为解决这些问题,我们拓展了核最优传输理论,提出了条件核Bures(CKB)度量来实现知识的定向(按类别)迁移,从而有效缓解“负迁移”问题。理论方面的性质,包括条件分布的可辨别性(identifiability)和经验估计误差的一致收敛性(consistency),将确保自适应表征学习的精确性。新的度量将继承最优传输与再生核理论的优点,不仅能够反映跨域数据之间的Wasserstein-Bures几何结构,并且还不依赖于先验分布的具体形式(即distribution-free)。
作为一种即插即用的度量模块,CKB能够用于任何自适应表征学习框架,显著降低模型在异分布数据上的泛化误差。基于CKB度量,我们设计了一种简单、高效的条件分布匹配网络,并在多个自适应表征学习与分类任务上进行了算法验证与模型分析。我们的方法在对比、消融、可视化和参数敏感度等实验上都取得了显著的效果。
图 1. 协变量偏移与条件偏移的示意图。协变量偏移方法(上方)使用边际分布上的度量匹配跨域数据的特征分布
1. 条件核Bures(CKB)
不管是协变量偏移还是条件偏移,其核心任务始终包括如何寻找合适的分布度量以实现对偏移分布的校正。极大均值差异(MMD)[2]和最优传输(OT)[3]是协变量偏移中最常用的两种校正度量,其分别建立于核分布嵌入理论和最优传输理论之上。这两种度量可直接适用于连续随机变量与分布支集不重叠的情况,这也是其优于传统统计散度之处。但是这两种度量皆建立在边际分布上,因此无法直接刻画类别信息,也无法直接应用于条件分布之间的距离估计与优化。为解决“条件分布的校正度量”这一核心问题,我们基于最优传输理论推导出了核空间中的条件分布度量CKB,其主要具备如下优点:
1. CKB是一种distribution-free的条件分布检验,且不受限于随机变量的类型与分布支集的假设;其可以直接用于条件分布的偏移检测、程度估计、校正对齐,提升模型在变化环境中的自适应性能;
2. CKB能反映跨域数据之间的非线性Wasserstein-Bures关系;特别在高斯先验下,CKB是条件分布之间最优传输问题的一个闭式解(closed-form solution),有助于提升自适应学习的计算和存储效率。
针对条件偏移问题,我们需要重新定义条件分布上的Kernel OT问题,其核心是将下面原始Kernel OT[4]中的传输计划限定在条件分布的耦合
其中
其中
定理1(分布度量) 在高斯先验下,我们有
一般情况下,CKB度量是条件Kernel OT问题的一个下界,但是定理1将确保CKB仍然是条件分布上的有效度量。因此,我们可以利用CKB度量来估计条件分布的偏移,进而建立自适应模型来充分缓解偏移。如图2所示,CKB的核心步骤是将条件分布嵌入为核空间中的条件协方差算子,从而将分布的自适应学习问题等价转化为条件协方差的匹配问题。
图 2. CKB度量的示意图。针对跨域数据所服从的条件分布
由于CKB度量建立在隐式的Hilbert函数空间,无法依据定义直接计算度量值。面向有限样本情况,我们给出了CKB度量一种可显式计算的经验估计:
理论上,下述定理2证明了经验估计的渐进一致性,从而保证了CKB的近似误差将随样本量的增加而收敛至任意小。
定理2(渐进性)记
2. 条件分布校正网络
我们基于CKB度量建立了一个精简、高效的自适应模型,其示意图如图3所示。该模型主要分为两部分:其一是学习条件不变表征的表征学习网络,另一个则是基于不变表征的分类网络。
图3. 条件分布校正网络的示意图。原始图像数据
网络基于三个损失项进行训练:1)使用源域真实标签来训练基本网络的交叉熵函数
其中
通过最小化网络表征之间的CKB距离,模型将学习面向跨域数据的条件不变表征空间
本文在Office-Home、Image-CLEF-DA和Office-10这三个标准自适应学习数据集上进行了实验验证。
1)对比实验。表1中给出了不同自适应学习模型在标准数据集上的分类结果,其中A
2)消融实验。图4中给出消融实验的结果。可以看出CKB方法在两组实验中呈现的结果一致,即CKB度量的结果要优于Bures度量和Kernel Bures度量,且CKB对齐带来的提升比其他损失更加显著,这证明了条件算子有助于模型从标签和预测中获得判别信息。
图 4. 消融实验。其中Bures和Kernel Bures分别代表将分布对其损失改为Bures度量和Kernel Bures度量计算。
3)可视化实验。图5给出了t-SNE算法的特征可视化结果,(a)-(b)中不同颜色代表不同域的特征,(c)-(d)中不同颜色代表不同类的特征。可以看出CKB模型不仅可以准确的对齐跨域数据的局部簇结构(迁移性),同时还能保持数据的类间可分性和类内紧凑性(判别性)。
图 5. t-SNE特征可视化结果。(a)和(c)代表为自适应学习的表征空间;(b)和(d)代表基于CKB学习的条件不变表征空间。
本文讨论了基于条件偏移假设的自适应表征学习与分类问题。从理论上,通过引入条件变量来扩展了RKHS中的最优传输问题,并证明了CKB度量是条件分布上的一个有效度量。面向有限样本,给出了可显式计算的经验估计,并证明了估计的渐进一致性。通过将CKB度量应用于深度神经网络,提出条件/联合分布匹配网络,不仅校正了偏移的数据分布,同时保持了两域的本征判别结构。大量实验结果表明了CKB度量的有效与适用性。
[2] Arthur Gretton, Karsten M Borgwardt, Malte J Rasch, Bernhard Scholkopf, and Alexander Smola. Akernel two-sample test. JMLR, 13(3): 723–773,2012.
[3] Nicolas Courty, R´emi Flamary, Devis Tuia, and Alain Rakotomamonjy. Optimal transport fordomain adaptation. IEEE TPAMI, 39(9): 1853–1865, 2016.
[4] Zhen Zhang, Mianzhi Wang, and Arye Nehorai. Optimal transport in reproducing kernel Hilbert spaces:Theory and applications. IEEE TPAMI, 42(7): 1741–1754, 2020.