【论文笔记】:Deep Feature Pyramid Reconfiguration for Object Detection

&Title

【论文笔记】:Deep Feature Pyramid Reconfiguration for Object Detection

&Summary

目前最好的目标检测器大多通过特征金字塔来学习多尺度表示从而取得更高的检测精度。然而,当前特征金字塔的设计在如何整合不同尺度的语义信息方面仍然不够高效。为此,本文在调研当前主流特征金字塔方法的基础上把特征金字塔转换为特征的再组合过程,创造性地提出了一种高度非线性但是计算快速的结构将底层表示和高层语义特征进行整合。具体而言,该网络由两个模块组成:全局注意力和局部再组合。这两个模块分布能全局和局部地去在不同的空间和尺度上提取任务相关的特征。重要的是,这两个模块具有轻量级、可嵌入和可端到端训练的优点。在基于SSD的框架上,该模型取得里比原始模型及其他变体方法明显更好的检测精度,而且没有牺牲实时的处理速度。

论文里采用了Squeeze-and-Excitation Networks(ILSVRC 2017 image classification winner; CVPR 2018 Oral https://github.com/hujie-frank/SENet)中的SE结构

&Problem Statement

当前特征金字塔的设计在如何整合不同尺度的予以信息方面仍然不够高效
(当前特征金字塔的设计对不同层的语义信息的合并没有效率)

&Methods

对该问题做了如下的解决。

  1. 提出了以一种高度非线性的且有效的方法,将高层语义特征与低层的表示结合起来。
  2. 提出两个结构:global attention和局部重建;
    【论文笔记】:Deep Feature Pyramid Reconfiguration for Object Detection
    首先执行自底向上的分支,然后将不同的分辨率级联。级联之后称为X;在X中包含Xl……Xp,然后对xl=H(X)处理。然后将不同的特征输出,进行检测。
    中间X的作用是:多次使用底层的特征,之前在SSD中由于对特征使用不充分,导致对小目标检测充分,而且mAP也不高,所以使用X的作用就是多次使用,提升准确性。

全局注意力

【论文笔记】:Deep Feature Pyramid Reconfiguration for Object Detection
【论文笔记】:Deep Feature Pyramid Reconfiguration for Object Detection

global attention里首先是squeeze,实现是 一个全局平均池化,然后是excitation阶段,实现是:两个全连接后接sigmoid **函数,第一个全连接后接relu函数,channel个数为c/16。第二个全连接的channel个数为c,然后再和X做channel-wise multiplication。caffe里用scale来实现。

局部重建

【论文笔记】:Deep Feature Pyramid Reconfiguration for Object Detection
local reconfiguration 实现是上图的模块。即三个卷积,分别是11,33,1*1。

上图使用残差连接,这个残差连接与ResNet的残差连接是由区别。
【论文笔记】:Deep Feature Pyramid Reconfiguration for Object Detection

  • 我们的假设是语义信息在特征层次结构之间分布,并且剩余学习块可以通过优化选择其他信息。
    ResNet中残差学习的目的是通过增加网络深度来获得准确性。
  • 另一个区别是,残差学习的输入是特征层次,而在ResNet中,输入是卷积输出的一个级别。

&Evaluation

【论文笔记】:Deep Feature Pyramid Reconfiguration for Object Detection
【论文笔记】:Deep Feature Pyramid Reconfiguration for Object Detection
【论文笔记】:Deep Feature Pyramid Reconfiguration for Object Detection
【论文笔记】:Deep Feature Pyramid Reconfiguration for Object Detection
【论文笔记】:Deep Feature Pyramid Reconfiguration for Object Detection

&Conclusion

在ConvNet下构建特征金字塔表达的关键问题是重新配置和重用特征层次结构。 本文通过全局和局部转换来解决这个问题。 这种表示方式使我们可以为特定比例的目标显式建模特征重新配置过程。 我们进行了广泛的实验,以将我们的方法与其他特征金字塔变体进行比较。 我们的研究表明,尽管深层ConvNet具有很强的代表性,但仍有空间和潜力来构建更好的金字塔以进一步解决多尺度问题。

参考