Squeeze-and-Excitation_Networks
这篇文章主要介绍了一个小的SE模块,为模型引入channel-wise的注意力机制:就是为每个channel学习一个权重,到时候把学习到的权重和feature map各个通道分别相乘,重新标定特征
这里引用作者的解释:
这里我们使用 global average pooling 作为 Squeeze 操作。紧接着两个 Fully Connected 层组成一个 Bottleneck 结构去建模通道间的相关性,并输出和输入特征同样数目的权重。我们首先将特征维度降低到输入的 1/16,然后经过 ReLu **后再通过一个 Fully Connected 层升回到原来的维度。这样做比直接用一个 Fully Connected 层的好处在于:1)具有更多的非线性,可以更好地拟合通道间复杂的相关性;2)极大地减少了参数量和计算量。然后通过一个 Sigmoid 的门获得 0~1 之间归一化的权重,最后通过一个 Scale 的操作来将归一化后的权重加权到每个通道的特征上。
解释一下,F_sq是全局平均池化,F_ex就是两个全连接,中间一个relu,末尾一个sigmoid做归一化,这样就得到每个channel的权重,F_scale就是把权重和feature map相乘
两个全连接是bottleneck的结构,主要是为了省参数量