CVPR2019行人重识别论文笔记1904.00537:Learning Visibility-aware Part-level Features for Partial Person Re-id
原文标题:Perceive Where to Focus: Learning Visibility-aware Part-level Features for Partial Person Re-identification
文章链接:https://arxiv.org/abs/1904.00537
摘要:
为了解决行人图像之间的不对齐性,作者提出了Visibility-aware Part Model(VPM),这个模型通过自监督学习图像的区域特征,比对图像之间共享的部分进而达到更高的准确率。
文章贡献:
(1)VPM可以比较两张图像共享的部分,抑制了空间不对齐性和非共享区域的噪音。
(2)VPM在合成数据集和真实数据集上的测试效果拔群。
VPM结构:
给定一张局部图像,调整为预设大小,经过卷积层获得三维向量T,再通过区域定位器(region locator)对像素进行分类,即通过像素的概率图辨别像素的区域归属。对概率图进行求和运算,得到可视分数(visibility scores)。将概率图通过特征提取器(region feature extractor),进而获得区域特征向量。
区域定位器的结构很简单,1*1的卷积层和softmax计算每个像素的概率。可视分数也是在这里计算,通过对位于同一区域的像素点的概率求和得到。可视分数作用是用来计算两图像之间的距离,即图像区域的共享程度。
区域特征提取器针对每个区域,利用概率图和得到的可视分数加权计算出对应的特征向量。
两图像的距离计算公式如下:
其中Di是两张图像的特征向量f的欧几里得距离。
VPM训练:
VPM采用自监督学习,给定HW的完整图像,将裁减图像的一部分,并将局部图像重新拉伸为HW,并把裁减后的区域信息映射到Tensor T上。
自监督学习带来的好处:
(1)训练时自动产生groud truth
(2)允许VPM在产生特征向量时专注于可视区域
(3)使VPM专注于共享区域。
区域定位器(region locator)的训练基于自学习产生的ground truth,通过交叉熵损失优化。
特征提取器(region feature extractor)结合交叉熵损失和三元组损失训练。
实验结果:
表中γ为裁切后的比例,可以看出在高裁切率时,文中的模型远性能高于PCB和baseline(仅学习全局特征),而在低裁切率时,文中的模型依然可以达到和PCB同一水平的性能。
作者还对比了图像的切块数的影响,被切的块数越多网络的性能越好,但是考虑到网络的效率,作者推荐选择切分为6块。
完结撒花!
欢迎大家评论吐槽!