Deep Feature Pyramid Reconfiguration 目标检测中的深度特征金字塔重构

目标检测中的深度特征金字塔重构

1.摘要

最新的目标检测算法通常通过特征金字塔来学习多尺度的表示以获得更好的预测结果,但是当前特征金字塔的设计在整合不同尺度的语义信息方面仍效率低下。在本文中,我们从研究现有的特征金字塔开始,提出了一种新的重构架构,以高度非线性但有效的方式将低级表示与高级语义特征结合起来。特别地,我们的架构由全局关注和局部重新配置组成,能够在全球和局部的不同空间位置和尺度上聚集面向任务的特征。全球关注和本地重新配置都是轻量级的、到位的和端到端可训练的。在SSD中使用这种方法,与原始模型及其其他变体相比,我们的模型实现了一致和显著的提升,同时又不损失实时处理速度。论文下载地址

补充:采用特征金字塔可以产生多尺度特征表示,其中所有层次语义都强,包括高分辨率特征。但未完全利用到浅层的位置信息,高层特征图的感受野过大,高级语义带来的缺陷就是缺乏识别小目标的特征信息,故对小目标的识别带来限制,如何有效利用各个尺度的特征图对检测效果十分重要。

2.笔记

Deep Feature Pyramid Reconfiguration 目标检测中的深度特征金字塔重构如图所示:

  • (a)用图像金字塔来建立特征金字塔很慢。
  • (b)更快的检测可以用单一尺度的特征图
  • (c)另外一种方法是重用由卷积神经网络计算得到的金字塔特征层。
  • (d)FPN结合了(b)和(c),蓝色的边框是卷积后的特征图,而更粗的边框是特征融合后语义更强的特征图。

2.1points

  1. 输入不同分辨率的图片进行预测,十分耗时,而且特征不能复用。即图像金字塔,结构如(a)
  2. 在单个网络中结合不同特征层的预测,如SSD,金字塔状特征层次结构如(c)。SSD使用深层的特征图检测大物体,同时使用浅层/高分辨率的特征层探测小物体。高分辨率的特征图的语义信息很弱,这限制了目标识别的能力。因此在检测小目标时未能复用高层的语义信息,而这是提高性能的关键瓶颈。
  3. FPN,如YOLOv3,结构如(d)。横向连接的目标是通过从上而下的路径增强浅层的语义信息。输出的特征图是与不同尺度的特征图的线性组合。与深层特征层次相结合的线性组合是对特定浅层信息进行改进的一种方法。当潜在样本是线性可分的时候,线性模型可以达到很好的抽象程度。然而,用于检测的特征层次通常时非线性的形式,因此捕捉这些概念的表示通常是输入的高度非线性函数。它的表示能力对于复杂的目标检测任务来说是不够的。
    Deep Feature Pyramid Reconfiguration 目标检测中的深度特征金字塔重构
  4. 与FPN逐层连接的方法不同,本文提出了一种灵活的框架,将多层语义知识集成到全局-局部方案中。先对bottom-top的全部特征图进行融合,从而深层更可能重新组织特征获得更好的结果,类似的是,PANet在FPN的基础上增加了bottom-top从而利用了更多层的特征图,增加了大目标的检测效果。
  5. 消融实验做得非常到位,在不同的数据集上对不同的金字塔构建方法进行精度和性能的比较。
  6. Global Attention 利用了Squeeze-and-Excitation block,具体还需要看论文,上图下半部分是local reconfigurations ,全局关注使网络更关注具有合适语义的特征,并帮助检测实例的变化,local reconfigurations也能使检测器选择更加合适的特征图。(感觉解释得还是不能让人信服,但效果的确好,大佬说的都是对的)
  7. 速度上,最终的特征图不像FPN是连续生成的,这里同时生成,速度也会更快。
    Deep Feature Pyramid Reconfiguration 目标检测中的深度特征金字塔重构

3.总结

  1. 充分利用不同尺度的特征图能够提取到更加有用的特征图,有利于检测大中小目标时的不偏不倚。论文中将主干特征提取网络输出的特征图融合在一起获得更有效的特征再进一步提取、分类、回归相对FPN的一层层连续生成能一次性获得更多特征,且可以“并行”生成最后的特征图提高了运行的速度。
  2. 尽管深层ConvNet具有很强的代表性,但仍有空间和潜力来构建更好的金字塔以进一步解决多尺度问题。