学习笔记十一——FPN

动机:识别不同尺度的目标是计算机视觉中的一个重大挑战。常用的解决方案是在图像金字塔之上建立特征金字塔,即特征化图像金字塔。图像金字塔对每个层次进行特征化,其主要优势在于它产生了多尺度的特征表示,所有层次都有很强的语义。但是如果应用到深度卷积网络上,需要大量的计算和内存。

思路:本文利用ConvNet特征层级的金字塔形状,创建一个在所有尺度上都具有强大语义的特征金字塔。最终实现创建网络中的特征金字塔,可以用来代替特征化的图像金字塔。

特征金字塔网络(Feature Pyramid Networks)

该金字塔结构包括自下而上的路径,自上而下的路径和横向连接。

自下而上的路径:主ConvNet的前馈计算,其计算由尺度步长为2的多尺度特征映射组成的特征层级。选择每个阶段的最后一层的输出作为特征映射参考集,由于每个阶段的最深层应具有最强大的特征。

自顶向下的路径:通过上采样空间上更粗糙但在语义上更强的来自较高金字塔等级的特征映射来幻化更高分辨率的特征。这些特征随后通过来自自下而上路径上的特征经由横向连接进行增强。

横向连接:每个横向连接合并来自自下而上路径和自顶向下路径的具有相同空间大小的特征映射。自下而上的特征映射具有较低级别的语义,但可以更精确地定位。

网络结构:首先输入的图像进行深度卷积操作,然后对Layer2的特征进行降维操作,添加一层1x1的卷积层,对Layer4的特征进行上采样为2倍,为了让它们具有相应的尺寸,然后对其执行加法操作(如下图,通过按对应元素相加),将上采样映射与相应的自下而上映射合并,将获得的结果输入到Layer5。
 

学习笔记十一——FPN

用FPN替换单尺度特征映射来适应RPN,用于生成proposal,原RPN网络以主网络的卷积层输出的特征图作为输入,只用了这一个尺度的特征图。但是将FPN放入RPN网络中,生成不同尺度特征并融合作为RPN网络的输入。

FPN能够较好地处理小目标的原因:FPN能够利用经过top-down模型后的上下文信息,在小目标上,FPN在更大的特征图上进行操作能获得更多有关于小物体的信息。

优点:金字塔结构可以通过所有尺度进行端对端训练,并且在训练/测试时一致地使用,这在使用图像金字塔时是内存不可行的。