Spatial Attention Network for Scene Parsing
motivation:现有的语义分割网络都是基于CNN网络的,因为CNN网络本身结构的原因,使得每个像素点能够获取到的信息都局限于卷积核涉及到的局部范围,没有利用到上下文环境的语义信息,而这些全局的语义信息对分割的预测是非常有帮助的
创新点:
(1)提出了PSANet,它可以为特征图中的每个点都收集来自全图其他所有点的信息
(2)这些信息会根据位置的不同自适应学习和其他位置信息的一个相互作用
(3)信息的流动是双向的,既有收集其他店的信息也有将信息分布到其他点的过程,对应文中说的一个是其他点如何帮助当前点进行预测,另一个则是当前点对其他点的来说的重要程度
网络方案:
对于输入特征X网络流程图可以分为以下几步:
(1)分为两个分支,预测两个attention map, 上面分支从其他点获取信息,下面分支获取当前点在其他点的重要程度
(2)经过一个1*1的卷积层来减少特征图的通道,从而减少计算量,
(3)再经过一个1*1的卷积层进行特征调整之后,通过一个卷积层预测全图的 attention featuremap,这里预测的attention 不是H*W,而是(2*H-1)*(2*W-1),我的理解是因为位置具有相对性,预测两倍,这样无论是左边还是右边的点都可以收集到信息
(4)对全图特征图,根据特征点的位置进行特征收集和发放,具体操作为将要收集的点i,放到全图特征图的中心,然后根据i在特征图的位置选出H*W的attention,保证i这个点在H*W的特征图的位置不变,示意图如下:
(5)用attention map 对feature map 进行加权得到具有全局上下文信息的新的特征图
(6)将上下分支的新的feature map 进行连接经过卷积层进行降维得到和局部特征维度相同的特征
(7)将新的全局特征和原来的局部特征进行连接操作,然后经过卷积等作为接下来网络的输入