AAAI 2020 | XIV-ReID：基于X模态的跨模态行人重识别

PaperWeekly

©PaperWeekly 原创 · 作者｜张晓涵

学校｜西安交通大学本科生

研究方向｜计算机视觉/行人重识别

论文标题：Infrared-Visible Cross-Modal Person Re-Identification with an X Modality

论文来源：AAAI 2020

论文链接：https://aaai.org/Papers/AAAI/2020GB/AAAI-LiD.870.pdf

代码链接：https://github.com/littlejiumi/XIVReID

概述

我们关注的任务是红外（infrared）-可见光（visible）跨模态行人重识别（IV-ReID）。此任务难点在于可见光图像与红外图像之间显著的 gap，因此，我们引入了一个辅助的 X modality，并将 infrared-visible 双模态任务重新表述为 X-Infrared-Visible 三模态学习任务，即 XIV 学习框架。

该框架由两个主要部分组成：一个是通过自监督学习生成 X 模态的轻量型 X 模态生成器，一个是权重共享的 XIV 跨模态特征学习器，并设计了跨模态的约束。

在X模态的辅助下将可见光与红外光图像连接起来，使跨模态的图像更容易匹配，得到更好的效果，见图1。

▲ 图1. 引入X Modality使得跨模态匹配更容易

我们在两个具有挑战性的数据集 SYSU-MM01 和 RegDB 上进行了大量的实验，实验结果表明，与最先进的方法相比，我们的方法在 rank 1 和 mAP 方面获得了超过 7% 的绝对增益。

方法

▲ 图2.XIV-ReID学习框架

2.1 问题定义

我们用表示跨模态 ReID 数据集。其中训练集包括对应于 C 个类别的 N 张图像；测试集包括和。用 V, I, X 分别代表可见光图像、红外光图像和学习的 X 模态图像。f 表示深度特征学习器，g 表示轻量级 X 模态生成器，则 X=g(V)。

测试时，根据中的红外光图像，利用 X 模态辅助寻找中最接近的可见光图像：

其中 D(·) 代表欧氏距离。

2.2 X模态图像

轻量级 X 模态生成器以可见光图像作为输入，网络包括两个 1×1 的卷积层和一个 ReLU 激活层，将可见光图像转换为单通道图像，然后重构成三通道图像。第一个 1×1 的卷积层将原始的三通道可见光图像映射为单通道图像，之后传入 ReLU 激活层，然后使用另一个 1×1 的卷积层将单通道图像映射为三通道的 X 模态图像。

与其他使用辅助结构的方法相比，如 GANs，我们实现了一个更轻量级和更高效的网络，且比 GANs 更容易优化。

2.3 权重共享特征学习器

特征学习器以 X 模态、红外光和可见光图像三种模式作为输入，在一个共同的特征空间中学习跨模态信息，三种模式权重共享。通过联合考虑红外- X 和红外-可见交叉模态差别，X 能够从可见光图像和红外图像中学习。在训练时，这三种模态同时进行优化。

2.4 模态约束

我们提出一种可见光、红外光、X 模态联合的模态约束，这三种模态规模均为 M。这样，跨模态约束（cross modality gap, CMG）可以计算为：

红外图像和学习得到的 X 模态图像的约束定义为：

其中：

是阈值参数，。

此外，对于每一种模态，我们还利用模态各自约束（modality respective gap, MRG）来帮助模型收敛：。具体来说，应用交叉熵损失和一个改进的三重损失来优化特征学习。以红外图像为例：

其中：

2.5 优化

我们提出的 XIV ReID 学习框架可以直接端到端优化：

这里的是平衡两种约束的超参数。

实验

3.1 实验设置

数据集：SYSU-MM01 和 RegDB
评价指标：累计匹配特征（CMC）曲线和平均精度（mAP）
实验细节：见原文

3.2 结果比较

▲表1.RegDB和SYSU-MM01数据集上与当前最佳IV-ReID方法比较

▲表2.在SYSU-MM01数据集上与cmGAN,D2RL方法比较

▲表3.在SYSU-MM01数据集上与AlignGAN方法比较

▲表4.SYSU-MM01数据集的消融研究

3.3 结果讨论

我们统计分析了 SYSU-MM01 和 RegDB 数据集训练图像上图像内部所有像素的平均单色通道强度，见下图。可见光图像的三种颜色通道的统计分布是相似的；而 X 模态图像的“R”通道有更高的强度。

▲图3.SYSU-MM01和RegDB的训练集上，一幅图像中所有像素的平均单颜色通道的强度直方图

从电磁辐射的角度看，与可见光图像相比，X 模态图像显得更“红”，因而具有更长的波长；相反地，与红外图像相比，X 模态图像看起来更丰富多彩，因此波长更短。因此，该方法最终获得了一种介于可见光和红外光之间的新模态。使用 X 模态学习的特征更容易进行跨模态匹配。

结论

本文研究了跨模态行人重识别问题。为了减少红外线和可见光图像之间固有的模态差异，我们提出了一个新的 X-红外线-可见光（XIV）跨模态学习框架。

具体地，我们设计了一个轻量级的生成器来从可见光图像和红外图像中吸取知识，并输出 X 模态图像；在此基础上，提出了一种基于权值共享的深度特征学习器，以联合的方式提取跨模态特征和分类输出。

我们采用端到端的方式，直接利用所设计的模态各自的模态约束（MRG）和跨模态约束（CMG）来实现生成器和特征学习器的优化。在两种公开的红外可见跨模态 ReID 数据集 SYSU-MM01 和 RegDB 上的实验结果证明了所提出的三模态跨模态学习方法的优越性。

中文文字：张晓涵、洪晓鹏

文章引用 bibtex 如下:

@inproceedings{xiv_reid20,
author={Li, Diangang and Wei, Xing and Hong, Xiaopeng and Gong, Yihong},
title={Infrared-Visible Cross-Modal Person Re-Identification with an X Modality},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
month = {February},
year={2020}
}

若对文中方法感兴趣，欢迎致信：

洪晓鹏老师 hongxiaopeng@mail.xjtu.edu.cn

和魏星老师 xingxjtu@gmail.com

更多阅读