论文笔记_S2D.38_2018-CVPR_用于单目深度估计的深度有序回归网络
基本情况
- 题目:Deep ordinal regression network for monocular depth estimation
- 出处:Fu, H., Gong, M., Wang, C., Batmanghelich, K., & Tao, D. (2018). Deep ordinal regression network for monocular depth estimation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 2002-2011).
摘要
单眼深度估计在理解3D场景几何中起着至关重要的作用,是一个不适定问题(ill-posed problem)。通过探索来自深度卷积神经网络(DCNN)的图像级信息和层次特征,最近的方法已取得了显着改进。这些方法将深度估计建模为一个回归问题,并通过最小化均方误差来训练回归网络,均方误差受收敛速度慢和局部解不能令人满意的困扰。此外,现有的深度估计网络
- 采用重复的空间池化操作,从而导致不良的低分辨率特征图。
- 为了获得高分辨率的深度图,需要跳连接或多层反卷积网络,
这会使网络训练变得复杂,并消耗更多的计算量。
为了消除或至少很大程度上减少这些问题,我们引入了间距增加离散化(SID)策略,以将深度离散化并重铸深度网络学习作为序数回归问题。通过使用普通回归损失训练网络,我们的方法可以获得更高的准确性和更快的同步收敛性。此外,我们采用了多尺度网络结构,该结构避免了不必要的空间池化并并行捕获了多尺度信息。拟议的深层序数回归网络(DORN)在三个具有挑战性的基准(即KITTI [16],Make3D [49]和NYU Depth v2 [41])上获得了最新的结果,并且在很大程度上优于现有方法。
介绍
从2D图像估计深度是场景重建和理解任务(例如3D对象识别,分割和检测)的关键步骤。在本文中,我们从单个图像(以下简称为MDE, Monocular Depth Estimation)研究了单眼深度估计问题。与根据立体图像或视频序列进行的深度估计(其中已取得重大进展)[19、29、26、44]相比,MDE的进展缓慢。 MDE是一个不适的问题:可能从无数不同的3D场景中生成单个2D图像。为了克服这种固有的歧义,典型的方法是
- 利用具有统计学意义的单眼线索或特征,例如透视和纹理信息,物体大小,物体位置和遮挡物[49、24、32、48、26]。
最近,一些工作通过使用基于DCNN的模型[38,55,46,9,28,31,33,3]大大改善了MDE性能,证明了深层特征优于手工特征。这些方法通过学习DCNN估计连续深度图来解决MDE问题。由于此问题是标准回归问题,因此通常采用对数空间中的均方误差(MSE)或其变体作为损失函数。尽管优化回归网络可以实现合理的解决方案,但我们发现收敛速度很慢,最终的解决方案远不能令人满意。另外,现有的深度估计网络[9、15、31、33、38、57]通常将最初设计用于图像分类的标准DCNN以完全卷积的方式用作特征提取器。在这些网络中,
- 重复的空间池化迅速降低了特征图的空间分辨率(通常为32步),这对于深度估计而言是不希望的。
- 尽管可以通过多层反卷积网络[33、15、31],多尺度网络[38、9]或跳过连接[57]通过合并更高分辨率的特征图来获得高分辨率的深度图,但这种处理不仅需要额外的计算和内存成本,而且还会使网络架构和训练过程复杂化。
与MDE的现有发展相比,我们建议将连续深度离散化为多个间隔,并将深度网络学习转换为序数回归问题,并提出如何通过DCNN将序数回归纳入密集的预测任务。更具体地说,我们建议使用间距增加离散化(SID)策略而非统一离散化(UD)策略执行离散化,这是由于深度预测的不确定性随底层地面真相深度的增加而增加的,表示在预测较大的深度值时最好允许相对较大的误差,以避免过大的深度值对训练过程的影响过大。在获得离散深度值之后,我们通过序数回归损失对网络进行训练,其中考虑了离散深度值的排序。
为了简化网络培训并节省计算成本,我们引入了一种网络体系结构,该体系结构避免了不必要的二次采样,并以一种更简单的方式而不是跳过连接来捕获多尺度信息。受场景解析的最新进展启发[60,4,62],我们首先在最后几个合并层中删除了子采样,然后应用膨胀卷积来获得较大的接收场。然后,通过应用具有多个扩张速率的扩张卷积,从最后一个池化层中提取多尺度信息。最后,我们开发了一种全图像编码器,该图像以比完全连接的全图像编码器[2、10、9、35、28]低得多的内存成本有效捕获图像级信息。整个网络以端到端的方式进行培训,而无需进行分阶段的培训或迭代完善。在三个具有挑战性的基准上进行的实验,即KITTI [16],Make3D [49、48]和NYU Depth v2 [41],证明了该方法可以达到最新的结果,并且在性能上远胜于最新算法。
本文的其余部分安排如下:
- section2: 对相关文献的简要回顾;
- section3: 提出的详细方法;
- section4: 除了在这些基准上的定性和定量性能外,我们还评估了所提出方法的多个基本实例,以分析这些核心因素的影响;
- section5: 最后,总结了整个论文。
网络结构