【论文阅读】Salience-Guided Cascaded Suppression Network for Person Re-identification
显著导向的级联抑制网络用于行人再识别
摘要
动机:大部分都关注显著的特征,但是不显著的特征也可能同样的重要
提出了: Salience-guided Cascaded Suppression Network (SCSN) which enables the model to mine diverse salient features and integrate these features into the final representation by a cascaded manner
挖掘不同的显著特征然后级联在一起,
能够挖掘多样化的显著性特征,并通过级联的方式将这些特征集成融合到最终的特征表示中
第一、我们观察到,以前网络学习到的显著性特征可能会阻碍网络学习其他重要信息。为了解决这一局限性,引入了级联抑制策略,该策略使网络能够逐级挖掘被其他显著特征掩盖的各种潜在的、有用的特征,并融合各级提取的特征作为最后的特征表示;
第二、提出一个显著特征提取(SFE)单元,该单元可以抑制在上一级联阶段学习到的显著特征,然后自适应地提取其他潜在的显著特征,以获得行人的不同线索;
第三、开发了一种有效的特征聚合策略,充分增强了网络提取潜在显著特征的能力。
引言
总体来说,全局特征对整体图像的外观变化和空间位置变化具有较强的鲁棒性。
全局特征可能会关注有干扰的区域;也可能忽略一些小的区域,但是对识别有贡献
有基于块的;基于注意力机制的;
主要的缺陷:缺乏对如何有效提取不同行人的差异化潜在显著性特征的探索
deep models easily focus on surface distribution regularities rather than more general and diverse concepts, so that they are prone to ignore potential information of pedestrians.(这句话怎么理解呢)
如果将各种特征没区别的链接,那显著的可能掩盖不明显的特征。
提出本文的方法
More specifically, we propose a feature aggregation strategy which consists of a Residual Dual Attention
Module (RDAM) and a Non-local Multi-stage Feature Fusion (NMFF) block, to better aggregate low-level and highlevel features of the backbone, and a Salient Feature Extract (SFE) unit to effectively yet efficiently extract diverse potential features. 带有SFE单元的级联抑制可以通过级联抑制更新来提取显著特征。
首先提取全局信息,用SFE(显著特征提取单元)提取显著的局部信息;
为了增加信息,某一阶段的显著特征和全局进行融合增强特征识别能力,
然后进行抑制得到无显著特征为下个stage作为输入;
被抑制后再挖掘其他显著的特征;
方法
Salience-guided Cascaded Suppression Network (SCSN)
It introduces two new components:
特征融合模块 the feature aggregation modules (residual dual attention module and non local fusion block)
显著特征提取 the salient feature extraction unit
Residual Dual Attention Module
这部分是注意力模块:
The Residual Dual Attention Module (RDAM) consists of a Channel-wise Attention Module(CAM) and a Residual Spatial Attention Module (RSAM)
通道的提取通道特征;残差提取空间维度中语义强的特征; (在两个角度提取注意力特征通道的和空间的,参考那篇论文看看3)
Channel-wise Attention:
通过显式地建模卷积特征的通道之间的相互依赖关系,引入信道注意来增强对不同行人的表征能力。
平均pooling和全局pooling,然后通过注意力机制获得通道注意力图片:
Residual Spatial Attention:
引导网络在空间维度上收集更多必要的语义信息,是对信道注意的补充
受到[8]的启发,我们允许前面块的空间注意信息与相邻模块一起传播,称为残差空间聚集,增强了空间相关估计的一致性和鲁棒性。(这句话什么意思)
Non-local Multistage Feature Fusion
结合不同的特征到最终的表示中,合并了非局部块融合多级特征,称为NMFF。
(这一部分应该是融合不同的特征的策略)
(用一个6632的图像去乘以1132的卷积核得到的其实是一个66的二维矩阵。这样就将通道数32给消除了,相当于给图像降维的操作,而且很迅速。卷积核的通道数必须与源图像的通道数相同。在通常的神经网络中,一般不会单独只使用1个卷积核,当使用的卷积核的个数是filters的时候,最后输出的就是一个66*filters的立方块)
(是构造了相似矩阵么,然后和原来的低级特征相乘;)
Salient Feature Extraction Unit
这部分是感知那部分的特征是有区分性的,可分为 salience descriptor and a salience selector。
(这部分应该是在特征已经提取了后选择显著的特征和不显著的特征,那么怎么判断和如何选择?)
(上部分涉及生成特征,这部分涉及选择特征)