[深度学习从入门到女装]Dual Attention Network for Scene Segmentation
论文地址:Dual Attention Network for Scene Segmentation
Dual Attention Network for Scene Segmentation
本文是在CVPR2019上一篇进行全景分割的论文
Overview
整个网络的结构图上图所示,backbone为dila FCN,最后两层pool取消改为dila conv,最终得到的feature map是input的八分之一大小,随后将这个feature map传入两个平行的attention模块,然后再将这两个attention模块得到的feature map进行融合(conv+element-wise sum)
Position Attention Module
整个position attention模块如上图所示,就是将feature mapA先使用conv+BN+ReLU得到三个不同的feature map B、C、D(C* H* W),然后将BCD都reshape成C* N(N=H* W),然后对B进行transpose后与C进行矩阵相乘,再把这个结果进行softmax得到S(N* N),然后将S和D进行矩阵相乘后reshape成(C* H* W)再与A进行element-wise sum得到最终的position feature map E
Channel Attention Module
channel attention模块的过程和position attention模块的过程基本一致,只不过没有将A重新使用conv+BN+ReLU得到新的feature map,是直接使用A进行attention操作