Beyond Skip Connections: Top-Down Modulation for Object Detection--------论文解读
参考博客:https://blog.****.net/zhangjunhit/article/details/70211687
1. 概述
近年来,目标检测已经取得巨大的进步。通过针对更深入的前馈网络,已经实现了大多数网络的改进。然而,许多难区分的对象类别,例如瓶子,遥控器等,需要表示细节,而不仅仅是粗略的语义表示。且许多细节会丢失在前几层卷积层中。
我们需要的是一种可以将底层一些更细致的特征融合到检测结构中的方法。受人类视觉通路的启发,在本文中,我们提出top-down(类似于FPN中的bottom-up和top-down结构)模块作为将细节结合到检测框架中的一种方式。主要是寻找一种选择/注意力机制来从较低卷积层中选择相关特征。
2. 网络结构
网络整体框架如图2。
我们的目标是将Top-Down Modulation(TDM)模块融合到现有的目标检测框架中。关键的想法是根据自上而下的上下文功能从较低级别的功能图中选择/关注细节,并根据低级细节选择自上而下的上下文功能。具体的TDM模块如图4。注:图中的L模块是横向连接;T模块是top-down模块。两个模块可以使单个卷积也可以是小型网络,如resnet或inception。
在嵌入TDM模块时需要考虑到L模块的频繁程度,以及T,L,Tout的容量。因此,设计的时候需要遵循以下几个原则:
粗语义模块需要更大的容量;
横向和top-down的连接应该减少特征维度以强制选择;
最后输出的容量应该参考原有检测框架。
3. 实验
表2展示了加入TDM模块后的VGG,ResNet101, InceptionResNetv2。
表3是在COCO数据集上的结果。