单目深度估计：双端注意力机制网络BANet【论文阅读】

华为诺亚方舟（加拿大）

Shubhra Aich, Jean Marie Uwabeza Vianney, Md Amirul Islam, Mannat Kaur, and Bingbing Liu

2020年 @ Bidirectional Attention Network for Monocular Depth Estimation

单目深度估计从输入形式上有三种：1，single image 2，monocular sequence 3，stereo supervision training+single image inference

单目深度估计从建模方法上分为三种：A，dense pixel-level continuous regression B,classification C, quantized regression(又称ordinal regression)

BANet属于1A

0.有监督、端到端、单张RGB图片作为输入，输出单张深度图

1.bidirectional attention mechanism，在stge-wise上分配注意力

2. 融合global和local语义信息：网络中有两个技术点利于融合global和local的语义信息，消除ambiguity。

其一：forward and backward attention Modules

其二：global context aggregation:D2S (denpth to space)模块中,使用大尺寸平均池化，利于获取全局语义，之后经过FC和UP。（红圈圈出部分）

3.网络架构：主干网络（bockbone）是DenseNet161

单目深度估计：双端注意力机制网络BANet【论文阅读】

对标数据全部是重跑得到的

速度：NVIDIA GeForce RTX 2080 Ti

训练：NVIDIA Tesla V100 32GB

评估指标：follow KITTI leaderboard-SILog, SqRel, AbsRel, MAE, RMSE, iRMSE ，以及修正过的δ，如下图

单目深度估计：双端注意力机制网络BANet【论文阅读】

数据集：KITTI Depth， DIODE

辅助注释：

BANet-Vanilla：backbone+1x1 conv+a D2S op+ sigmoid

BANet-Forward: 移除Backward attention部分

BANet-Backward:移除Forward attention部分

BANet-Markov:Forward中只有前一个stage的输出连接到9x9卷积，Backward中只有后一个stage的输出连接到9x9卷积

BANet-Local:架构图D2S中红圈框住的global context aggregation用9x9卷积代替

BANet-Full: 图示中完整架构

单目深度估计：双端注意力机制网络BANet【论文阅读】

1. Bockbone densenet161详细架构

2. 网络计算量

3.损失函数文中未谈及