Parameter-FreeSpatialAttentionNetworkforPersonRe-Identification
摘要:GAP(global average pooling)可以帮助我们产生辨别性的信息用于识别,但是在行人重识别领域,如果关键信息丢GAP就会收到很大的影响,比如摄像头角度变了。为了解决这个问题,通过在高阶语义上建模空间关系来获得目标的全局配置被证明是有效的。作者提出了一种新的行人的再识别体系结构,该结构基于一种新的无参数空间注意层,将特征图上**之间的空间关系引入到模型中。
GAP是一个众所周知的技巧在全连接层减少参数,GAP经常可以提高表现由于容量的正则化效应,但是GAP有一个缺陷,如果模型将注意点没有放在最具有辨别性的区域,或者这个区域在其他摄像头中丢失了。这样很难去识别出这个人。普通的分类可能不是太需要考虑这个问题,对于一般的图像分类,这个问题不太明显,因为类是非常独特的。因此,由于缺少某些特性而导致的退化并不一定是致命的。行人重识别则不行。在图像识别中,基于Attention的方法有一种倾向去编码空间关系。Attention机制可以使得模型拥有能力去关注最具有信息度的区域而不是整个图片。从作者给出的实验图我们可以看出:空间注意力一方面比GAP在图中更分散(但是是分散在目标上),但另一方面,也关注GAP所关注到的区域。这种空间注意可以对部分遮挡或相机视角的改变更具有鲁棒性。
作者的Spatial Attention层和先前的基于Attention的模型对比有一个优势就是参数量小。计算量的增加只和在模型中出现的次数成正比。尽管结构简单,但是我们的实验验证了他有效性。
常见的基于Attention的模型是把channel和Spatial Attention嵌入模型中,然而,它允许模型不仅关注不同的空间位置,还关注具有不同权重的不同通道,这意味着模型必须决定是否值得关注feature map中的每一个单独的**。一方面,这给了模型很大的灵活性来利用最有价值的特性,但另一方面,这个可能有害如果没有应用适当的正则化技术去减少过拟合。另一个类似的工作来自SENET,在这里,特征图首先被压缩,然后通过两个连接层进行fc,然后通过sigmoid函数重新标定。得到的向量长度与原始feature map的通道数相同,将向量的每个条目乘回对应的通道。它与我们的工作在三个方面有所不同:我们使用softmax而不是sigmoid作为结果向量;在他们的作品中,关注的主要是渠道,而不是空间位置;并且我们的无参数模块只在最后一个间隙层之前使用。
在**上的空间信息有助于分布模型Attention,然而GAP把相同特征map的**平等对待,这样模型缺少鲁棒性。我们的空间注意层可以将这些信息添加回模型中。上图显示了详细信息。第一个操作是对每个空间位置的通道求和,表示该位置的重要性。为了使得学到的过滤器更有竞争力,softmax而不是sigmoid然后应用于汇总**。这鼓励不同的过滤器吸收不同的特征,从而使模型更健壮。然后使用softmax的输出重新调整原始特征图上**的大小。这意味着,不同的**对同一空间位置的重要性可以通过该通道上的其他**来增强。所有来自同一空间位置的**都被相同的权重重新标度,而不同的空间位置有不同的权重。考虑空间关系是因为权重与相应位置上的总**量的相对大小成正比。