单目深度估计:双端注意力机制网络BANet【论文阅读】

论文及作者信息:

华为诺亚方舟(加拿大)

Shubhra Aich, Jean Marie Uwabeza Vianney, Md Amirul Islam, Mannat Kaur, and Bingbing Liu

2020年 @ Bidirectional Attention Network for Monocular Depth Estimation

应用及分类:

单目深度估计从输入形式上有三种:1,single image 2,monocular sequence 3,stereo supervision training+single image inference

单目深度估计从建模方法上分为三种:A,dense pixel-level continuous regression B,classification C, quantized regression(又称ordinal regression)

BANet属于1A

BANet基本信息:

0.有监督、端到端、单张RGB图片作为输入,输出单张深度图

1.bidirectional attention mechanism,在stge-wise上分配注意力

2. 融合globallocal语义信息:网络中有两个技术利于融合globallocal的语义信息,消除ambiguity

其一:forward and backward attention Modules

其二:global context aggregation:D2S (denpth to space)模块中,使用大尺寸平均池化,利于获取全局语义,之后经过FCUP。(红圈圈出部分)

3.网络架构:主干网络(bockbone)是DenseNet161

单目深度估计:双端注意力机制网络BANet【论文阅读】

单目深度估计:双端注意力机制网络BANet【论文阅读】

单目深度估计:双端注意力机制网络BANet【论文阅读】

 

实验信息:

对标数据全部是重跑得到的

速度NVIDIA GeForce RTX 2080 Ti

训练:NVIDIA Tesla V100 32GB

评估指标follow KITTI leaderboard-SILog, SqRel, AbsRel, MAE, RMSE, iRMSE ,以及修正过的δ,如下图

单目深度估计:双端注意力机制网络BANet【论文阅读】

数据集:KITTI DepthDIODE

辅助注释:

BANet-Vanillabackbone+1x1 conv+a D2S op+ sigmoid

BANet-Forward: Backward attention部分

BANet-Backward:Forward attention部分

BANet-Markov:Forward中只有前一个stage的输出连接到9x9卷积,Backward中只有后一个stage的输出连接9x9卷积

BANet-Local:架构图D2S中红圈框住的global context aggregation9x9卷积代替

BANet-Full: 图示中完整架构

单目深度估计:双端注意力机制网络BANet【论文阅读】

单目深度估计:双端注意力机制网络BANet【论文阅读】

单目深度估计:双端注意力机制网络BANet【论文阅读】

阅读遗留问题

1. Bockbone densenet161详细架构

2. 网络计算量

3.损失函数文中未谈及