2019 IEEE Access之ReID: Person Re-Identification Between Visible and Thermal Camera Images Based on
Person Re-Identification Between Visible and Thermal Camera Images Based on Deep Residual CNN Using Single Input
当前的问题及概述:
当前的很多方法,会使用了两个或更多的图像作为输入,计算复杂度是非常高的。
本文提出了一种简化卷CNN结构的person ReID方法,该方法将可见光图像和热图作为单一输入进行融合。
模型及loss:
本文提出的框架:
本结构中,将输入图像进行分类,选取anchor、positive、negative pairs进行分别输入,经过预处理后分别进入IPVT-1, IPVT-2和 IIPVT通道,如下图所见,IPVT-1采用双通道pairs,IPVT-2采用单通道pairs,IIPVT既采用单通道pairs也采用双通道pairs,这3个通道都包括了两个模态的图像以及两个pairs,anchor选取RGB图像,positive 选取同ID的IR图像,negative选取不同ID的IR图像。
Case 1:图像二值化:Otsu thresholding(大津阈值法)
作者认为:热图在背景区域较暗时,倾向于表现前景区域较亮,或者相反,故所以本文选用Otsu thresholding(大津阈值法)将图像双模态直方图通过识别使类间方差最大的值来获得阈值的一种方法。这样可以使目标轮廓更加清晰的显现出来,从而更容易的分离出positive pairs 和negative pairs。
Case 2:图像过滤:retinex filtered(视网膜过滤)
视网膜理论认为,光源的信息在识别物体的可见信息时,会影响物体的可见信息。针对视觉模型提出了一种减少光照影响、补偿显示物体自身颜色的视网膜算法,视网膜算法分为单尺度视网膜(SSR)和多尺度视网膜(MSR),其中SSR:
其中,Ri (x, y)表示输入图像每个像素的“真彩色”或反射率,Ii (x, y)表示输入图像,F (x, y)表示高斯滤波器,当SSR中得到的Ri (x, y)乘以每个i不同的权重Wn便得到MSR:
Case 3:Res50
本框架的backbone采用Res50,具体如下:
实验:
数据集:DBPerson-Recog-DB1和 SYSU- MM01
DBPerson-Recog-DB1:412个ID(正面,背面,侧面),每个人平均有10张100×110×3像素大小的可见光图像和10张110×125×1像素大小的热图像,共计8240张。
不同通道的性能比较:
不同算法的性能比较:
本文与其他框架的比较:
DBPerson-Recog-DB1数据集:Person recognition system based on a combination of body images from visible light and thermal cameras(2017)
这篇文章个人觉得没必要看,和别的文章框架比较性能提升这么多,我认为抛开别的不说,只能说是用DBPerson-Recog-DB1数据集,因为RGB-T ReID一共有15篇左右,我基本上看完了,第一次见用这个数据集进行比较的。也有可能我理解错了,欢迎大家指正。