共享与特定于域的跨模态论文
共享与特定于域特征结合的跨模态人员再识别论——Cross-modality Person re-identification with Shared-Specific Feature Transfer
智能视频监控中,面临着很大的监控挑战:如果白天还能够让摄像头清晰地捕捉到行人信息并且进行有效识别的话,那么晚上由于缺少光照,摄像头捕捉不到丰富的彩色信息,在这种情况下,夜晚的行人再识别就显得没有那么有效了。
一种跨越白天和黑夜的两种摄像头——RGB摄像头和IR摄像头监控方式逐渐兴起。很多摄像头也具有自动转换RGB和IR模式功能。本文作者提出一种在两种摄像头模式得到的图片中进行行人再识别的方法,并且发表了STOA的文章
首先上图文章图2是对论文的整体模型进行的说明。
图片送入模型网络的batchsize大小为64,一个mini batch为8,其中RGB有4张,IR有4张。为了描述方便,在特定于域的模型流中,直接用RGB作为例子,IR的处理方法和RGB相同。
图片送入模型,首先经过conv1——为resnet50的第一层和第二层,输出为256维;在提取特定于域的特征时,进入conv2——resnet50的第三层和第四层,输出为1024维。作者后面有说到,Feat都是利用了BNNeck模块。
Hao Luo, Youzhi Gu, Xingyu Liao, Shenqi Lai, and WeiJiang. Bagoftricksandastrongbaselinefordeep person re-identification. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pages 0–0, 2019.
接着往下得到了Pr特征描述,特征维度为C,数量为N,也就是图2中给出的N*C的矩阵。
shared流和specific流的方法一样,模型结构完全相同,只不过是用来提取共享信息,对于RGB和IR得到了相同维度和大小的特征Hr,Hp。
这里的损失函数,文中报道的比较多,最主要的是交叉熵损失和三元组损失。
交叉熵损失函数计算模型出来的特征和特征属于某一个身份的概率,交叉熵损失保证了学习到的特征能够具有判别力地表示原身份,同时,作者也添加了三元组损失,进一步保障了特征的判别力:
三元组损失:
single modality Triplet loss(smT)分别用RGB和IR模态的specific特征作为anchor(例如),用同一模态的相同身份的不同图片特征作为正对(),同一模态不用身份的图片特征作为负对(()
cross modality triplet loss(cmT)用跨模态的share特征做anchor(),用不同模态的同一身份不同图片特征作为正对(),不同模态的不同图片特征作为负对()
模型继续往下走,作者运用图卷积(GCN)的知识,计算shared和specific特诊之间的相似度,构建Affinity 模型,也就是图卷积中的A矩阵。
跨模态的affinity矩阵计算:
距离矩阵d()采用规范化的欧几里得距离,得到距离矩阵为N*N,矩阵里的值表示第i行第j列之间的规范化欧氏距离。
同理,模态内的affinity矩阵计算公式公式为:
Affinity矩阵(A矩阵)表示出同一个batch图片之间特征的亲近关系,为了能够将shared特征和specific特征融合在一起,方便图卷积的前向传播过程,作者将特征用()函数做了微处理,挑选出A矩阵中每一行中,最靠近当前图片的k张图片,把它们的值保留,其余的图片值置为0,这样既可以节省模型的计算力,又减少了距离较远的图片的干扰。作者在文中将k值设为4,恰好是每一个模态内minibatch提取的图片数量。
最终,整个模型中使用的Affinity矩阵为两个shared特征和两个specific特征构建的A矩阵拼接,形成一个2N*2N的更大A矩阵。
也就是图2对应的
为了配合A矩阵进行图卷积的前向传播,, , ,四个特征拼接成为2N*3C的拼接特征,拼接方法为:
也就是图2中的
图卷积的前向传播过程十分传统,按照公式
其中D为拼接后大小为2N3C的A矩阵对应的度矩阵,大小为2N2N,为对角矩阵,对角线上的元素为同一行的A矩阵所有元素之和:
W是一个可学习的参数矩阵,W的维度未知,用来控制最后输出的特征维度。
最终作者的整体Feat就由图卷积得出。
对特征T(2N* )做三元组损失和交叉熵损失,计算对应的特征属于每个样本图片标签的概率,
三元组损失不再考虑single or cross 模态,直接计算四者的和。
作者的损失加入的比较复杂,对于, 两个specific特征的学习监督还加了重建损失(),投影损失(H^R$, 两个shared特征的模态自适应损失()
先说重建损失,作者利用了四层亚像素卷积层,
Wenzhe Shi, Jose Caballero, Ferenc Husz ́ ar, Johannes Totz, Andrew P Aitken, Rob Bishop, Daniel Rueckert, and Zehan Wang. Real-time single image and video super-resolution using an efficient sub-pixel convolu-tional neural network. In Proceedings of the IEEE conference on computer vision and pattern recogni-tion, pages 1874–1883, 2016.
从四个特征重建图片,用二范数计算重建图片和原图片的重建损失
重建损失是从全局信息损失的角度对模型做限制的
再者就是投影损失,作者用投影矩阵,将specific特征向着共享特征 做投影,在投影阶段拼命靠拢两类特征,反过来在特征生成阶段拼命生成线性独立的两类特征之间,做最大最小化的博弈,最终达到shared特征和specific特征之间相互独立的目的。
投影损失考虑的是让shared特征和Specific特征之间尽量独立不干扰,模态自适应损失的提出主要是为了从shared特征中过滤掉specific特征,让共享特征变得纯洁起来。而且重建、投影损失的提出都是为了补充模态自适应损失的。
模态自适应方法也很简单,只需要从相应的特征中判别出属于哪一个模态就行,而在特征生成阶段,受到模态自适应损失的影响,会尽量生成模态不可辨的特征。
最后,作为2020年的跨模态行人再识别新作,作者在RegDB和SYSU-MM01数据集上都取得了不错的成果,给后人的模型完善带来了不小的挑战,放一张作者的成果作为最后的总结吧,膜拜大神~~~