单目深度估计:双端注意力机制网络BANet【论文阅读】
论文及作者信息:
华为诺亚方舟(加拿大)
Shubhra Aich, Jean Marie Uwabeza Vianney, Md Amirul Islam, Mannat Kaur, and Bingbing Liu
2020年 @ Bidirectional Attention Network for Monocular Depth Estimation
应用及分类:
单目深度估计从输入形式上有三种:1,single image 2,monocular sequence 3,stereo supervision training+single image inference
单目深度估计从建模方法上分为三种:A,dense pixel-level continuous regression B,classification C, quantized regression(又称ordinal regression)
BANet属于1A
BANet基本信息:
0.有监督、端到端、单张RGB图片作为输入,输出单张深度图
1.bidirectional attention mechanism,在stge-wise上分配注意力
2. 融合global和local语义信息:网络中有两个技术点利于融合global和local的语义信息,消除ambiguity。
其一:forward and backward attention Modules
其二:global context aggregation:D2S (denpth to space)模块中,使用大尺寸平均池化,利于获取全局语义,之后经过FC和UP。(红圈圈出部分)
3.网络架构:主干网络(bockbone)是DenseNet161
实验信息:
对标数据全部是重跑得到的
速度:NVIDIA GeForce RTX 2080 Ti
训练:NVIDIA Tesla V100 32GB
评估指标:follow KITTI leaderboard-SILog, SqRel, AbsRel, MAE, RMSE, iRMSE ,以及修正过的δ,如下图
数据集:KITTI Depth, DIODE
辅助注释:
BANet-Vanilla:backbone+1x1 conv+a D2S op+ sigmoid
BANet-Forward: 移除Backward attention部分
BANet-Backward:移除Forward attention部分
BANet-Markov:Forward中只有前一个stage的输出连接到9x9卷积,Backward中只有后一个stage的输出连接到9x9卷积
BANet-Local:架构图D2S中红圈框住的global context aggregation用9x9卷积代替
BANet-Full: 图示中完整架构
阅读遗留问题:
1. Bockbone densenet161详细架构
2. 网络计算量
3.损失函数文中未谈及