Squeeze-and-Excitation_Networks

这篇文章主要介绍了一个小的SE模块，为模型引入channel-wise的注意力机制：就是为每个channel学习一个权重，到时候把学习到的权重和feature map各个通道分别相乘，重新标定特征

Squeeze-and-Excitation_Networks
这里引用作者的解释：

这里我们使用 global average pooling 作为 Squeeze 操作。紧接着两个 Fully Connected 层组成一个 Bottleneck 结构去建模通道间的相关性，并输出和输入特征同样数目的权重。我们首先将特征维度降低到输入的 1/16，然后经过 ReLu **后再通过一个 Fully Connected 层升回到原来的维度。这样做比直接用一个 Fully Connected 层的好处在于：1）具有更多的非线性，可以更好地拟合通道间复杂的相关性；2）极大地减少了参数量和计算量。然后通过一个 Sigmoid 的门获得 0~1 之间归一化的权重，最后通过一个 Scale 的操作来将归一化后的权重加权到每个通道的特征上。

解释一下，F_sq是全局平均池化，F_ex就是两个全连接，中间一个relu，末尾一个sigmoid做归一化，这样就得到每个channel的权重，F_scale就是把权重和feature map相乘
两个全连接是bottleneck的结构，主要是为了省参数量

Squeeze-and-Excitation_Networks

相关推荐