ICCV2019-行人重识别-Mixed High-Order Attention Network for Person Re-Identification
动机:
依旧是一篇基于attention 的论文,不得不说现在market数据集上top10基本被attention霸榜了。这篇文章的出发点和SONA很类似,作者分析目前attention的操作都太过于粗糙,例如 spatial attention 和 channel attention ,需要高阶的操作以获取更多local之间的关系。
创新:
乍一看first-order和channel attention基本一致,果然,作者在后文有提到。没有细看矩阵的推导过程,看图觉得作者应该是在第N个order采用了N个1×1的卷积核,之后得到的N个等尺寸的feature再相互乘,得到不同阶的mask。
因为作者已开源,看了下源码,确实如此,附上部分源码注释。
在得到不同阶的feature后,作者又设计了一个对抗损失adversary coefficient,这设计很巧妙:
- 特征由FC层输出后,期望各个feature之间的差异性缩小
- 然而作者设计的Mixed High-Order Attention Network却期望不同阶的attention模块可以学习到更有区分性的的特征,即不同阶学到的特征不同。
框架:
- 框架结构:单一分支
- 特征:加入Mixed High-Order Attention Network后得到的特征。
- 损失函数:CE loss+adversary coefficient
- backbone:resnet50 使用PCB框架
实验:
不加PCB前性能一般,对比其baseline提升也不是很明显。
加入PCB后提升到了market 下 rank1到了95.1
对比SENet50,即first order channel attention,在6阶的时候提升效果明显
疑惑:
作者在github上开源了他的代码,并放出了实验结果,与论文中相比,大部分少了几个点