[论文阅读]Adaptive Pyramid Context Network for Semantic Segmentation

前言

看这个名字我就觉得是在PSPNet/DeepLabV3 上采取了attention,果然是…

Introduction

CNN中卷积核有着受限的感受野,同时即使有着更大的感受野,卷积核也通常只关心中心的部位而忽略了边界的信息。

作者提出了一个问题:What are the optimal contexts for sementic segmentation

然后探究上下文向量应该表现出的理想特性:

  • 多尺度 物体通常有不同尺寸和位置

    方法

    • 图像金字塔

    • 在Encoder - Decoder 结构之中 高等级的特征和低等级的特征相融合

    • PSPNet的PPM(金字塔池化)和DeepLab的ASPP(金字塔空洞卷积)

    问题: 平等的对待所有的图像

  • 自适应 不是所有的区域对于label标记的贡献都是相同的,实际中,相关的区域距离可能很近也可能很远

  • 全局引导局部 通过加权的方式聚合特征

    • PSPNet的PPM, ParseNet的GAP,但是没有自适应

过程

[论文阅读]Adaptive Pyramid Context Network for Semantic Segmentation

(在PSPNet的基础上改了改?)

我们关心在这个网络的核心模块ACM,ACM给PSPnet的自适应池化层加上了Attention

具体的步骤如下

特征图被分为了两个分支

  • 第一个分支

    • 通过一个1×1×5121\times 1 \times 512的卷积,以此来减小特征图的通道数量,得到特征图xx
    • 然后通过全局平均池化,得到一个有全局信息的512维的向量g(x)g(x)
    • 然后将g(x)g(x)xx相加,相当于给每一个像素加上了当前通道的全局信息,得到新的特征图 pp
    • pp通过一个1×1×s21\times 1\times* s^2的卷积,然后reshape成为一个hw×s2hw\times s^2的矩阵AA,aija_{ij}为亲和因子
  • 第二个分支

    • 通过一个自适应池化层将原特征图变为s×ss\times s大小

    • 通过一个1×1×5121\times 1 \times 512的卷积调整通道数

    • 将调整后的特征图reshape成为s2×512s^2 \times 512的矩阵BB以满足矩阵相乘的原理

ABA*B的结果作为新的特征图,新的特征图相当于融合了全局信息的特征图

然后还要加上最早的特征图xx,这样得到了最后的特征图

(直接把1*1卷积合并在一起感觉更好…)

实验设计

  • 设计了相同的bacebone之下的不同自适应池化层的大小比较

[论文阅读]Adaptive Pyramid Context Network for Semantic Segmentation

  • 设计了有无ACM模块的比较

[论文阅读]Adaptive Pyramid Context Network for Semantic Segmentation

  • 设计了有无深监督,预训练,水平翻转,多尺度(随机不同大小的图片输入)评价的比较

[论文阅读]Adaptive Pyramid Context Network for Semantic Segmentation

自己的一点小小分析

矩阵乘积的attention 和 直接加权的attention区别?