[论文阅读]Adaptive Pyramid Context Network for Semantic Segmentation

看这个名字我就觉得是在PSPNet/DeepLabV3 上采取了attention，果然是…

CNN中卷积核有着受限的感受野,同时即使有着更大的感受野,卷积核也通常只关心中心的部位而忽略了边界的信息。

作者提出了一个问题:What are the optimal contexts for sementic segmentation

然后探究上下文向量应该表现出的理想特性:

(在PSPNet的基础上改了改?)

我们关心在这个网络的核心模块ACM,ACM给PSPnet的自适应池化层加上了Attention

具体的步骤如下

特征图被分为了两个分支

第一个分支
- 通过一个 $1\times 1 \times 512$ 的卷积,以此来减小特征图的通道数量,得到特征图 $x$
- 然后通过全局平均池化,得到一个有全局信息的512维的向量 $g(x)$
- 然后将 $g(x)$ 与 $x$ 相加,相当于给每一个像素加上了当前通道的全局信息,得到新的特征图 $p$
- 将 $p$ 通过一个 $1\times 1\times* s^2$ 的卷积,然后reshape成为一个 $hw\times s^2$ 的矩阵 $A$ , $a_{ij}$ 为亲和因子
第二个分支
- 通过一个自适应池化层将原特征图变为 $s\times s$ 大小
- 通过一个 $1\times 1 \times 512$ 的卷积调整通道数
- 将调整后的特征图reshape成为 $s^2 \times 512$ 的矩阵 $B$ 以满足矩阵相乘的原理

将 $A*B$ 的结果作为新的特征图,新的特征图相当于融合了全局信息的特征图

然后还要加上最早的特征图 $x$ ,这样得到了最后的特征图

(直接把1*1卷积合并在一起感觉更好…)

[论文阅读]Adaptive Pyramid Context Network for Semantic Segmentation

[论文阅读]Adaptive Pyramid Context Network for Semantic Segmentation

[论文阅读]Adaptive Pyramid Context Network for Semantic Segmentation

矩阵乘积的attention 和直接加权的attention区别?