[论文阅读]Adaptive Pyramid Context Network for Semantic Segmentation
前言
看这个名字我就觉得是在PSPNet/DeepLabV3 上采取了attention,果然是…
Introduction
CNN中卷积核有着受限的感受野,同时即使有着更大的感受野,卷积核也通常只关心中心的部位而忽略了边界的信息。
作者提出了一个问题:What are the optimal contexts for sementic segmentation
然后探究上下文向量应该表现出的理想特性:
-
多尺度 物体通常有不同尺寸和位置
方法
-
图像金字塔
-
在Encoder - Decoder 结构之中 高等级的特征和低等级的特征相融合
-
PSPNet的PPM(金字塔池化)和DeepLab的ASPP(金字塔空洞卷积)
问题: 平等的对待所有的图像
-
-
自适应 不是所有的区域对于label标记的贡献都是相同的,实际中,相关的区域距离可能很近也可能很远
-
全局引导局部 通过加权的方式聚合特征
- PSPNet的PPM, ParseNet的GAP,但是没有自适应
过程
(在PSPNet的基础上改了改?)
我们关心在这个网络的核心模块ACM,ACM给PSPnet的自适应池化层加上了Attention
具体的步骤如下
特征图被分为了两个分支
-
第一个分支
- 通过一个的卷积,以此来减小特征图的通道数量,得到特征图
- 然后通过全局平均池化,得到一个有全局信息的512维的向量
- 然后将与相加,相当于给每一个像素加上了当前通道的全局信息,得到新的特征图
- 将 通过一个的卷积,然后reshape成为一个的矩阵,为亲和因子
-
第二个分支
-
通过一个自适应池化层将原特征图变为大小
-
通过一个的卷积调整通道数
-
将调整后的特征图reshape成为的矩阵以满足矩阵相乘的原理
-
将的结果作为新的特征图,新的特征图相当于融合了全局信息的特征图
然后还要加上最早的特征图,这样得到了最后的特征图
(直接把1*1卷积合并在一起感觉更好…)
实验设计
- 设计了相同的bacebone之下的不同自适应池化层的大小比较
- 设计了有无ACM模块的比较
- 设计了有无深监督,预训练,水平翻转,多尺度(随机不同大小的图片输入)评价的比较
自己的一点小小分析
矩阵乘积的attention 和 直接加权的attention区别?