Person Search via A Mask-Guided Two-Stream CNN Model论文笔记
1.概述
论文主要是为了解决行人搜索(行人检测+行人重识别),论文将行人检索看成两个阶段,认为分离的检测器和re-ID特征提取能够产生更高的性能。论文提出了一个基于Mask-guided的双路CNN模型,一个分支是通过输入原始图像,输出检测后的行人候选框,另一个分支是通过预训练实例分割模型,提取原始图片的行人二值化掩膜。
2.方法介绍
如上图所示:主要有两个阶段组成(检测分割阶段、re-ID阶段)
Detecor:采用Faster R-CNN作为行人检测器。
分割:采用MS COCO预训练的FCIS模型提取掩膜。
这两个阶段不是端到端训练,而是单独训练。
(1)行人检测:
采用基于VGG16的Faster RCNN架构(可能是为了减少训练时间),和目标检测类似,RPN输出一系列的候选框,采用非极大值抑制算法(IoU>0.7)。筛选的候选框先经过RoI pooling映射到相同大小,送入分类和回归网络,最终输出相应的得分和bounding box参数,通过SGD算法,不断修正候选框的位置,使得检测行人的结果更加准确。
(2)前景与背景分割:
前景分割主要依赖于行人检测结果和一个前景分割的预训练模型,具体做法如上述算法所示:
a.将得到的每个RoI(包括ground truth)扩充一定比例,主要是为了包含更多的特征信息。
b.如右图所示,根据RoI,在原图和实例分割图分别裁剪行人,将获取的实例分割的行人进行二值化处理,使其只包含背景和前景信息。
c.将裁剪的行人和裁剪的掩膜执行element-wise production,获得的图片只含前景信息,去除了相关的背景干扰。
(3)双流网络建模:
原始图像和只含前景的图像分别输入到O-Net和F-Net提取相应的特征,最终将特征级联,经过一个注意力机制网络(SEBlock)将级联的特征进行重排序,这个模块主要使用OIM损失来训练。
3.总结
该论文想法很独特,通过引入掩膜去除背景干扰,来实现提取具有可区分性的行人特征,最终的实验结果也验证了作者提出的方法的可行性。
如果有啥问题,欢迎指出,大家一起讨论。
论文链接:https://arxiv.org/abs/1807.08107?context=cs