[CVPR2019]Interaction-and-Aggregation Network for Person Re-identification论文笔记
1. 摘要
该论文方向为有监督行人重识别。
当前ReID任务有一些比较大的挑战,最主要的为行人姿态和范围变化大和背景杂波。这会导致不同行人图像中的身体没办法对齐。当前其他论文的解决方法有定位身体部分并提取特征(基于姿态,基于注意力机制等)和进行多层次多尺度的特征融合。但这两种方法不够有效,因为1)CNN网络的结构皆为矩形不符合人体结构。2)单层CNN的所有**单元的感受野相同会导致小尺度物体特征的丢失。
该论文提出一个IA Network(Interaction-and-Aggregation Network),能够提高特征的表达能力。IA Network包括SIA(Spatial IA)和CIA(Channel IA)两个部分。SIA部分对空间特征相关性进行建模,而CIA部分对于通道特征相关性进行建模。SIA和CIA组成的IA block能够在任意网络的任意位置插入。
2. 方法
2.1 SIA
输入的特征图为
F
∈
R
C
×
H
×
W
F ∈ R^C×H×W
F∈RC×H×W,将其reshape至
F
∈
R
C
×
M
(
M
=
H
×
W
)
F ∈ R^C×M(M=H×W)
F∈RC×M(M=H×W)。
SIA解决行人姿态和人体图像范围变化大的问题,通过获得空间特征的相关性。
Appearance Relation Map
定义相关空间位置的特征具有高度相关性,故包含相关位置的Patch也具有高度相关性。将Patch进行点乘得到乘积作为
f
i
f_i
fi和
f
j
f_j
fj的相关性。
其中K表示Patch的大小,A代表Appearance,求出所有
f
i
f_i
fi和
f
j
f_j
fj的相关性后用softmax归一化,最终得到
S
k
A
S_k^A
SkA相关性矩阵。
将k不同取值的
S
k
A
S_k^A
SkA进行softmax就可得到最中的
S
A
S^A
SA。Location Relation Map
定义相邻位置的特征应具有相关性。
其中
(
x
i
,
y
i
)
(x_i,y_i)
(xi,yi)和
(
x
j
,
y
j
)
(x_j,y_j)
(xj,yj)代表
f
i
f_i
fi和
f
j
f_j
fj的坐标。
semantic relations
将外貌相关性和位置相关性融合。
Aggregation Operation
将得到的最终语义相关图和特征图相点乘得到最终的特征图。
2.2 CIA
首先将F重塑为
R
C
×
M
(
M
=
H
×
W
)
R^C×M(M=H×W)
RC×M(M=H×W),然后对F与F的转置进行矩阵乘法,并对结果进行规范化处理,得到信道语义关系映射C∈RC×C,其中任意两条通道之间的语义相似度计算如下:
将得到的最终通道相关图和特征图相点乘得到最终的特征图。