Infrared-Visible Cross-Modal Person Re-Identification with an X Modality——准研究生论文周报

1 标题

Infrared-Visible Cross-Modal Person Re-Identification with an X Modality 来源：AAAI 2020

2 概述

本文也是一篇跨模态ReID(cm-ReID)，和上周的那篇结合特有特征和共享特征的cm-ReID相比，本文在两个数据集上的表现并不如前者，不过也是提供了一种思路吧。
本文的思路和做法巧妙而简单，跨模态ReID是个很难的任务，因为模态之间的差异或者说gap较大，为了减小gap，作者引入了一个介于RGB和红外图像之间的 $X$ 模态，变二模态(IV-ReID)为三模态(XIV-ReID)，从而使跨模态匹配变得容易，其直观思想和图像可视化如下图，其中颜色表示某一ID，形状代表模态，同一虚线框中的图片很容易匹配，图(a)：跨模态很难因为两种模态明显存在gap；图(b)：X模态的加入使得任务变得简单。
Infrared-Visible Cross-Modal Person Re-Identification with an X Modality——准研究生论文周报

3 主要贡献

引入模态 $X$ ，变infrared-visible cm-ReID为X-infrared-visible cm-ReID，双模态变三模态
模态X来自RGB图像，由自监督的轻量网络生成，计算量小
设计了模态gap约束(modality gap constraint)，来引导模态间互相“学习交流”

4 算法及实验

4.1 算法

框架概览
下图为框架结构，框架主要包含3大块，1)轻量生成器；2)权值共享的特征提取器；3)约束。轻量生成器从可见图像和红外图像汲取信息(不过算法里 $X$ 模态图好像并未从红外图吸收任何信息)，生成 $X$ 模态的图像，然后三种模态的图像馈入特征提取器，最后，加上两个模态约束cross modality gap (CMG)和modality respective gap (MRG)，用以规范化特征表示和分类输出，并学习common space中三种模态的跨模态信息。

Infrared-Visible Cross-Modal Person Re-Identification with an X Modality——准研究生论文周报

问题描述
cm-ReID数据集 $T=\{T_{tr},T_{te}\}$ ， $T_{tr}$ 是包含了 $N$ 张图像的训练集，标签 $Y=\{y_i\}_{i=1}^N$ ， $y_i\in\{1,2,...,C\}$ ， $C$ 是 $T_{tr}$ 的类别数，测试集包含query集和gallery集， $T_{te}={T_{query},T_{gallery}}$ 。
$V,I,X$ 表示可见图、红外图和 $X$ 模态图，用 $f$ 表示深度特征学习器， $g$ 表示 $X$ 模态生成器，即 $X=g(V)$ 。
测试阶段，通过query图片 $I_i$ 从gallery集找出近邻可见图像 $V_{j^*}$ ，而且通过 $X$ 模态的辅助进行跨模态搜索， $j^*$ ：
$j^*=arg\,min_j(D(f(I_i),f(V_j))+D(f(I_j),f(X_j)))\,\,\,\,\,\,\,\,\,\,\,\,\,(2)$ $D$ 是欧氏距离
X模态
生成器是一个轻量的非线性网络，不同于GAN，作者提出的生成器计算量很小，不用通过复杂的训练来实现。网络结构很简单，通过 $1\times 1\,ConV$ 将三通道RGB图变为单通道图，用ReLU提高非线性表示能力，然后再用 $1\times 1\,ConV$ 将单通道变为三通道图，成为类似RGB图的X模态图。
权值共享特征学习器(Weight-sharing Feature Learner)
三种模态作为输入，通过一个权值共享的特征学习器在一个共同特征空间学习跨模态信息。训练阶段共同优化三种模态， $X$ 模态辅以降低学习难度；测试阶段，通过上面的公式(2)计算红外-X以及红外-可见模态的相似度。
模态约束(Modality Constraints)
先前方法利用红外-可见正负样本对来增强特征辨别性(指的是不是三元组？)，而本文利用三种模态联合形成模态间约束，用 $3M$ 大小的整齐的batch， $3M$ 指的是三种模态，则跨模态间隙(cross modality gap，CMG)约束 $L_C$ 表示为： $L_C=L_{cross}^{I,X}+L_{cross}^{I,V}$ 对于红外和 $X$ 模态之间的约束 $L_{cross}^{I,X}$ ： $L_{cross}^{I,X}=\frac{1}{M}(L_{I-X}+L_{X-I})$ 其中： $L_{I-X}=\sum_{i=1}^M[\alpha_1+max\,\,D(f(I_i),f(X_j))-min\,\,D(f(I_i),f(X_k))]_+\\(j=M+1,...,2M且y_i=y_j;k=M+1,...,2M且y_i≠y_k)$ $L_{X-I}=\sum_{i=M+1}^{2M}[\alpha_1+max\,\,D(f(X_i),f(I_j))-min\,\,D(f(X_i),f(I_k))]_+\\(j=1,...,M且y_i=y_j;k=1,...,M且y_i≠y_k)$ 其中 $\alpha_1$ 是阈值参数， $[Z]_+=max(z,0)$ ，通过困难样本挖掘， $I-X$ 模态正样本对的欧式距离将被优化的比负样本对小， $I-V$ 模态也类似。
对于每一种模态，采用模态各自间隙(modality respective gap，MRG)约束 $L_M$ 来加快模型收敛，用交叉熵损失和改进的三重态损失优化特征学习： $L_M=L_I+L_X+L_V$ 以红外模态为例，组合损失约束定义为： $L_I=\frac{1}{M}(L_I^{id}+L_I^{tri})$ 其中 $L_I^{id}=-\sum_{i=1}^M\textbf{y}_i\log (\textbf{p}_i)$ $L_I^{tri}=\sum_{i=1}^M[\alpha_2+max\,\,D(f(I_i),f(I_j))-min\,\,D(f(I_i),f(I_k))]_+\\(j=1,...,M且y_i=y_j;k=1,...,M且y_i≠y_k)$
优化
端到端的方式, $\lambda$ 是超参数， $L=L_M+\lambda L_C$

4.2 结果

Infrared-Visible Cross-Modal Person Re-Identification with an X Modality——准研究生论文周报
本文的实验结果和上周对比(选取上周不同训练方案中的最好结果)：

方法\数据集	RegDB		SYSU-MM01
	r1(%)	mAP(%)	r1(%)	mAP(%)
XIV-ReID	62.21	60.18	49.92	50.73
cm-SSFT	72.3	72.9	61.6	63.2

5 总结

文章里定义IV-ReID为：用红外图来查询可见图，很含糊，容易让人以为用可见图query红外图是VI-ReID，文献[1]给出了答案，两种方法都叫做IV-ReID，也就是说当前研究环境下，cm-ReID主要是指IV-ReID，其中文献[1]就是上面实验结果提到的 $D^2RL$ 方法；
目前来看，做cm-ReID主要有几种方法：1)分别提取两种模态的特征；2)提取两种模态的单独特征和共享特征，融合在一起；3)用某种手段缩小模态间gap，比如GAN。本文是第三种方法，我目前还没看到无监督的cm-ReID。
基础需要再加强，下一步了解一下GCN(图卷积神经网络)和注意力机制，还有一个ResNet改版的强backbone——ResNeSt[2]，虽然这篇文章是strong reject，但这个backbone确实很强，被拒的原因之一应该是做实验的时候使用了一些trick，但是不使用任何trick它也比ResNet强，所以后面可以试试，代码也开源了。

6 参考文献

[1] Wang Z, Wang Z, Zheng Y, et al. Learning to reduce dual-level discrepancy for infrared-visible person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 618-626.
[2] Zhang H, Wu C, Zhang Z, et al. Resnest: Split-attention networks[J]. arXiv preprint arXiv:2004.08955, 2020.

Infrared-Visible Cross-Modal Person Re-Identification with an X Modality——准研究生论文周报

1 标题

2 概述

3 主要贡献

4 算法及实验

4.1 算法

4.2 结果

5 总结

6 参考文献

相关推荐