[论文解读]AAAI 2019|M2Det:A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

论文题目:A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network
论文作者:Qijie Zhao , Tao Sheng ,Yongtao Wang , Zhi Tang , Ying Chen , Ling Cai and Haibin Ling

:以下是个人解读,若有出入之处,还请指出。

Motivation:
作者在文中认为现在的目标检测网络像DSSD、RetinaNet、RefineDet等都普遍采用FPN的网络结构,但是它们的backbone都用的是目标分类的backbone,这样存在两方面局限性:
原文:
First, feature maps in the pyramid are not representative enough for the object detection task, since they are simply constructed from the layers (features) of the backbone designed for object classification task.
Second, each feature map in the pyramid (used for detecting objects in a specific range of size) is mainly or even solely constructed from single-level layers of the backbone, that is, it mainly or only contains single-level information.
1、FPN中的feature map虽然可以有助于保留更多的位置信息和语义信息,但还是不能说FPN就可以代表目标检测任务的网络结构了。因为,它只是简单的提取目标分类网络结构中backbone中的特征层。
2、FPN中用来检测某些指定尺度的特征层只是目标分类网络中backbone的单一层,就意味着它只具有单层特征图的信息,而不是目标检测在该尺度上的所有信息。

因此,作者提出本文的feature pyramid,如下图:
[论文解读]AAAI 2019|M2Det:A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network特点
1、整合了backbone中的牲层,作为网络的基础特征层(base feature);
2、在基础特征层后跟U型的网络和特征融合网络;
3、最后融合检测网络得到目标检测的特征图,每个特征图是包含着多尺度的信息,最后构成feature pyramid。
网络结构如下图:

[论文解读]AAAI 2019|M2Det:A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network
模型包括了3个子模型:
1、Feature Fusion Module (FFM),
2、Thinned U-shape Module (TUM)
3、 Scale-wise Feature Aggregation Module(SFAM)

FFM:先upsamping小尺度牲图,然后采用concat两个牲图,再用1x1的卷积压缩模型;
TUM:采用3x3的卷积层和strid为2的方式向小特征图编码,解码是用1x1upsamping+conv3x3的方式,最后采用elementwise sum的方式加起来。

[论文解读]AAAI 2019|M2Det:A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network
SFAM: 简单的说就是把TUM产生的feature map 所对就大小尺度的feature 拼接起来。但是简单的拼接是不够的,作者又采用了SE attention来获取对该通道最有利的模型。
SE attention: 先将该层平均池化再经过2个全连接层得到每层的**因子s,然后用**因子来增强来衰减feature map.
[论文解读]AAAI 2019|M2Det:A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network
train:
训练和其它的没多大差别,采用SSD的方式,用6个anchor的3种尺度,并去掉分数小于0.05的anchors,最后采用sorft NMS的方式筛选出最终的结果。

result:
不多说直接上图:
[论文解读]AAAI 2019|M2Det:A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network检测速度对比如下图:
[论文解读]AAAI 2019|M2Det:A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network
END