ASFF:目标检测自适应特征融合方式

ASFF:目标检测自适应特征融合方式

Adaptively Spatial Feature Fusion的自适应特征融合方式

​ 在目前的目标检测算法中,为了充分利用高层特征的语义信息和底层特征的细粒度特征,采用最多也是较好的特征融合方式一般是FPN架构方式,但是无论是类似于YOLOv3还是RetinaNet他们多用concatenation或者element-wise这种直接衔接或者相加的方式,论文作者认为这样并不能充分利用不同尺度的特征。所以提出一种新的融合方式来替代concat或element-wise。
ASFF:目标检测自适应特征融合方式

以ASFF-3为例,图中的绿色框描述了如何将特征进行融合,其中X1,X2,X3分别为来自level,level2,level3的特征,与为来自不同层的特征乘上权重参数α3,β3和γ3并相加,就能得到新的融合特征ASFF-3,如下面公式所示:
ASFF:目标检测自适应特征融合方式

因为采用相加的方式,所以需要相加时的level1~3层输出的特征大小相同,且通道数也要相同,需要对不同层的feature做upsample或downsample并调整通道数。

对于权重参数α,β和γ,则是通过resize后的level1~level3的特征图经过1×1的卷积得到的。并且参数α,β和γ经过concat之后通过softmax使得他们的范围都在[0,1]内并且和为1:
ASFF:目标检测自适应特征融合方式
总结,其实这种融合方式的思想在很多算法中都有体现,比如注意力模型,图像修复算法,利用权重参数来调整特征融合的贡献大小。