【速览】CVPR 2021 | CKB：基于条件偏移的自适应学习

原创罗又维、任传贤中国图象图形学学会CSIG

学会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播，通过短篇文章让读者用母语快速了解相关学术动态，欢迎关注和投稿~

◆ ◆ ◆ ◆

基于条件偏移的自适应学习

罗又维

^1

, 任传贤

^{1,2*}

^{1}

中山大学 ,

^{2}

琶洲实验室

CVPR 2021

撰稿人：罗又维, 任传贤

推荐理事：林宙辰

原文标题：Conditional Bures Metric for Domain Adaptation

原文链接：https://openaccess.thecvf.com/content/CVPR2021/html/Luo_Conditonal_Bures_Metric_for_Domain_Adaptation_CVPR_2021_paper.html

◆ ◆ ◆ ◆

摘要

近年来，自适应表征学习为解决标注数据短缺、人工标注成本高昂、异分布数据分析与分类等问题提供了有效的方案。当下，自适应表征学习不仅聚焦于语义分割、图像识别、视频理解等主流计算机视觉任务，同时也被广泛应用于自然语言处理、场景感知认知、智慧医学诊疗、视觉-语言多模态数据分析等其他前沿领域。自适应表征学习的核心任务是将有标注数据（称为源域）中的有用知识迁移至无标注数据（称为靶域），从而有效提升所训练模型的泛化性能。其中的难点在于数据域之间广泛存在的分布偏移问题，如虚拟成像与真实图像存在视觉风格等方面的差异。

现有的多数自适应学习方法基于协变量偏移假设，容易引发“负迁移”问题，导致模型的预测性能不足 [1]。如图1所示，相比于协变量偏移校正，条件偏移校正可以在迁移知识的同时保留数据的本征局部结构。但是，当前有关条件偏移假设和条件分布自适应建模的研究相对较少，缺乏条件分布上的可计算与有效度量，从而无法触及“条件分布”这一本质层面。为解决这些问题，我们拓展了核最优传输理论，提出了条件核Bures（CKB）度量来实现知识的定向（按类别）迁移，从而有效缓解“负迁移”问题。理论方面的性质，包括条件分布的可辨别性（identifiability）和经验估计误差的一致收敛性（consistency），将确保自适应表征学习的精确性。新的度量将继承最优传输与再生核理论的优点，不仅能够反映跨域数据之间的Wasserstein-Bures几何结构，并且还不依赖于先验分布的具体形式（即distribution-free）。

作为一种即插即用的度量模块，CKB能够用于任何自适应表征学习框架，显著降低模型在异分布数据上的泛化误差。基于CKB度量，我们设计了一种简单、高效的条件分布匹配网络，并在多个自适应表征学习与分类任务上进行了算法验证与模型分析。我们的方法在对比、消融、可视化和参数敏感度等实验上都取得了显著的效果。

图 1. 协变量偏移与条件偏移的示意图。协变量偏移方法（上方）使用边际分布上的度量匹配跨域数据的特征分布 $P_x$ ，其可能会导致局部结构的错误迁移，即不同类别的数据出现重叠。本文提出的条件偏移方法（下方）寻找核空间中的条件分布嵌入，进而匹配跨域数据的条件分布 $P_{X|Y}$ ，最终实现局部结构与判别知识的有效迁移。

基于条件偏移的自适应学习

1. 条件核Bures（CKB）

不管是协变量偏移还是条件偏移，其核心任务始终包括如何寻找合适的分布度量以实现对偏移分布的校正。极大均值差异（MMD）[2]和最优传输（OT）[3]是协变量偏移中最常用的两种校正度量，其分别建立于核分布嵌入理论和最优传输理论之上。这两种度量可直接适用于连续随机变量与分布支集不重叠的情况，这也是其优于传统统计散度之处。但是这两种度量皆建立在边际分布上，因此无法直接刻画类别信息，也无法直接应用于条件分布之间的距离估计与优化。为解决“条件分布的校正度量”这一核心问题，我们基于最优传输理论推导出了核空间中的条件分布度量CKB，其主要具备如下优点：

1. CKB是一种distribution-free的条件分布检验，且不受限于随机变量的类型与分布支集的假设；其可以直接用于条件分布的偏移检测、程度估计、校正对齐，提升模型在变化环境中的自适应性能；

2. CKB能反映跨域数据之间的非线性Wasserstein-Bures关系；特别在高斯先验下，CKB是条件分布之间最优传输问题的一个闭式解（closed-form solution），有助于提升自适应学习的计算和存储效率。

针对条件偏移问题，我们需要重新定义条件分布上的Kernel OT问题，其核心是将下面原始Kernel OT[4]中的传输计划限定在条件分布的耦合 $\Pi(P^s_{X|Y},P^t_{X|Y}):$

其中 $\gamma$ 称为最优传输计划， $d(\cdot,\cdot)$ 表示Hilbert空间中的范数距离。在高斯先验下，可导出条件分布的Kernel OT问题有如下闭式解，即CKB距离（原文中含详细推导）：

其中 $R_{XX|Y}$ 为核空间中的条件协方差算子。

定理1（分布度量） 在高斯先验下，我们有 $d_{CKB}(R^s_{XX|Y},R^t_{XX|Y})=0\Rightarrow P^s_{X|Y}=P^t_{X|Y}$

一般情况下，CKB度量是条件Kernel OT问题的一个下界，但是定理1将确保CKB仍然是条件分布上的有效度量。因此，我们可以利用CKB度量来估计条件分布的偏移，进而建立自适应模型来充分缓解偏移。如图2所示，CKB的核心步骤是将条件分布嵌入为核空间中的条件协方差算子，从而将分布的自适应学习问题等价转化为条件协方差的匹配问题。

图 2. CKB度量的示意图。针对跨域数据所服从的条件分布 $P_{X|Y}$ ，CKB首先计算其分布在再生核Hilbert空间中对应的条件协方差算子。基于再生核Hilbert空间的再生性质， $R_{XX|Y}$ 在一定条件下将成为 $P_{X|Y}$ 在Hilbert空间上的唯一嵌入算子。因此CKB对条件协方差算子 $R_{XX|Y}$ 的辨别将实现对条件分布 $P_{X|Y}$ 的辨别。

由于CKB度量建立在隐式的Hilbert函数空间，无法依据定义直接计算度量值。面向有限样本情况，我们给出了CKB度量一种可显式计算的经验估计：

理论上，下述定理2证明了经验估计的渐进一致性，从而保证了CKB的近似误差将随样本量的增加而收敛至任意小。

定理2（渐进性）记 $D_{CKB}=d^2_{CKB}$ 为真实距离， $\hat{D}^{(n)}_{CKB}$ 为 $n$ 个样本的经验估计。则 $\hat{D}^{(n)}_{CKB}$ 会随样本量增加而收敛至 $D_{CKB}$ ，即 $|\hat{D}^{(n)_{CKB}}-D_{CKB}|\to0(n\to\infty)$ .

2. 条件分布校正网络

我们基于CKB度量建立了一个精简、高效的自适应模型，其示意图如图3所示。该模型主要分为两部分：其一是学习条件不变表征的表征学习网络，另一个则是基于不变表征的分类网络。

图3. 条件分布校正网络的示意图。原始图像数据 $x$ 首先经过不变表征网络 $G(\cdot)$ 转化为自适应表征 $z=G(x)\in \mathbb{R}^d$ ，而后表征经过分类网络 $C(\cdot)$ 转化为概率预测 $p=C(z)\in \mathbb{R}^c$ 。

网络基于三个损失项进行训练：1）使用源域真实标签来训练基本网络的交叉熵函数 $\mathcal{L}_E$ ；2）使用靶域预测信息来增强靶域判别性的熵函数 $\mathcal{L}_{Ent}$ ；3）对齐两域条件分布的CKB度量函数 $\mathcal{L}_{CKB}$ . 其中 $\mathcal{L}_{CKB}$ 由CKB的经验估计计算，熵损失与总目标函数如下：

其中 $\lambda_1$ 和 $\lambda_2$ 为权衡参数。此外，我们基于分解 $P_{XY}=P_{X|Y}P_Y$ 进一步考虑了联合分布的对齐。我们使用MMD度量来校正标签分布 $P_Y$ 的偏移，其将对齐靶域的预测分布 $\hat{P^t_Y}$ 对齐至源域真实的标签分布 $P_Y^S$ 。最终，联合分布对齐损失将由 $\mathcal{L}_{CKB}$ 与 $\mathcal{L}_{MMD}$ 组成，总目标函数可写为：

通过最小化网络表征之间的CKB距离，模型将学习面向跨域数据的条件不变表征空间 $Z$ ，而提升其在跨域跨分布数据上的泛化能力。在条件不变表征的基础上，同时应用于源域与靶域的熵函数学习准则将保证分类网络的性能，并有效防止模型在单个域上过拟合。基于CKB的条件分布对齐与基于熵函数的端到端训练将相互促进，进而实现自适应模型判别性和迁移性的同步增强。良好对齐的特征空间将更适合判别知识的迁移，同时判别的分类器也会使得CKB度量估计更精确，从而有效应对局部结构的错误匹配并缓解“负迁移”问题。

实验结果

本文在Office-Home、Image-CLEF-DA和Office-10这三个标准自适应学习数据集上进行了实验验证。

1）对比实验。表1中给出了不同自适应学习模型在标准数据集上的分类结果，其中A $\to$ C代表从源域A（有标签）到靶域C（无标签）的自适应学习。不管是CKB+MMD方法还是CKB方法，在平均分类准确率上相较当前SOTA模型都有0.6%-1.1%的提升。

表 1. 不同自适应学习方法在靶域上的分类准确率。CKB与CKB+MMD分别为提出的条件分布匹配模型与联合分布匹配模型。

2）消融实验。图4中给出消融实验的结果。可以看出CKB方法在两组实验中呈现的结果一致，即CKB度量的结果要优于Bures度量和Kernel Bures度量，且CKB对齐带来的提升比其他损失更加显著，这证明了条件算子有助于模型从标签和预测中获得判别信息。

图 4. 消融实验。其中Bures和Kernel Bures分别代表将分布对其损失改为Bures度量和Kernel Bures度量计算。

3）可视化实验。图5给出了t-SNE算法的特征可视化结果，(a)-(b)中不同颜色代表不同域的特征，(c)-(d)中不同颜色代表不同类的特征。可以看出CKB模型不仅可以准确的对齐跨域数据的局部簇结构（迁移性），同时还能保持数据的类间可分性和类内紧凑性（判别性）。

图 5. t-SNE特征可视化结果。(a)和(c)代表为自适应学习的表征空间；(b)和(d)代表基于CKB学习的条件不变表征空间。

总结

本文讨论了基于条件偏移假设的自适应表征学习与分类问题。从理论上，通过引入条件变量来扩展了RKHS中的最优传输问题，并证明了CKB度量是条件分布上的一个有效度量。面向有限样本，给出了可显式计算的经验估计，并证明了估计的渐进一致性。通过将CKB度量应用于深度神经网络，提出条件/联合分布匹配网络，不仅校正了偏移的数据分布，同时保持了两域的本征判别结构。大量实验结果表明了CKB度量的有效与适用性。

参考文献

[1] Han Zhao, Remi Tachet Des Combes, Kun Zhang, and Geoffrey Gordon. On learning invariant representations for domain adaptation. In ICML, pages 7523–7532, 2019.

[2] Arthur Gretton, Karsten M Borgwardt, Malte J Rasch, Bernhard Scholkopf, and Alexander Smola. Akernel two-sample test. JMLR, 13(3): 723–773,2012.

[3] Nicolas Courty, R´emi Flamary, Devis Tuia, and Alain Rakotomamonjy. Optimal transport fordomain adaptation. IEEE TPAMI, 39(9): 1853–1865, 2016.

[4] Zhen Zhang, Mianzhi Wang, and Arye Nehorai. Optimal transport in reproducing kernel Hilbert spaces:Theory and applications. IEEE TPAMI, 42(7): 1741–1754, 2020.

华南国际工业博览会延期至2021年8月4-6日，地点不变

关于提名2021年度中国图象图形学学会会士候选人的通知

关于2021年度中国图象图形学学会奖励推荐工作的通知

中国图象图形学学会关于组织开展科技成果鉴定的通知

第二届CSIG图像图形技术挑战赛报名进行中

第二届CSIG图像图形技术挑战赛竞赛项目六：多媒体伪造取证大赛

CSIG图像图形中国行承办方征集中

继续滑动看下一个