基本情况

题目：Deep ordinal regression network for monocular depth estimation
出处：Fu, H., Gong, M., Wang, C., Batmanghelich, K., & Tao, D. (2018). Deep ordinal regression network for monocular depth estimation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 2002-2011).

摘要

单眼深度估计在理解3D场景几何中起着至关重要的作用，是一个不适定问题(ill-posed problem)。通过探索来自深度卷积神经网络（DCNN）的图像级信息和层次特征，最近的方法已取得了显着改进。这些方法将深度估计建模为一个回归问题，并通过最小化均方误差来训练回归网络，均方误差受收敛速度慢和局部解不能令人满意的困扰。此外，现有的深度估计网络

采用重复的空间池化操作，从而导致不良的低分辨率特征图。
为了获得高分辨率的深度图，需要跳连接或多层反卷积网络，

这会使网络训练变得复杂，并消耗更多的计算量。

为了消除或至少很大程度上减少这些问题，我们引入了间距增加离散化（SID）策略，以将深度离散化并重铸深度网络学习作为序数回归问题。通过使用普通回归损失训练网络，我们的方法可以获得更高的准确性和更快的同步收敛性。此外，我们采用了多尺度网络结构，该结构避免了不必要的空间池化并并行捕获了多尺度信息。拟议的深层序数回归网络（DORN）在三个具有挑战性的基准（即KITTI [16]，Make3D [49]和NYU Depth v2 [41]）上获得了最新的结果，并且在很大程度上优于现有方法。

介绍

从2D图像估计深度是场景重建和理解任务（例如3D对象识别，分割和检测）的关键步骤。在本文中，我们从单个图像（以下简称为MDE， Monocular Depth Estimation）研究了单眼深度估计问题。与根据立体图像或视频序列进行的深度估计（其中已取得重大进展）[19、29、26、44]相比，MDE的进展缓慢。 MDE是一个不适的问题：可能从无数不同的3D场景中生成单个2D图像。为了克服这种固有的歧义，典型的方法是

利用具有统计学意义的单眼线索或特征，例如透视和纹理信息，物体大小，物体位置和遮挡物[49、24、32、48、26]。

最近，一些工作通过使用基于DCNN的模型[38，55，46，9，28，31，33，3]大大改善了MDE性能，证明了深层特征优于手工特征。这些方法通过学习DCNN估计连续深度图来解决MDE问题。由于此问题是标准回归问题，因此通常采用对数空间中的均方误差（MSE）或其变体作为损失函数。尽管优化回归网络可以实现合理的解决方案，但我们发现收敛速度很慢，最终的解决方案远不能令人满意。另外，现有的深度估计网络[9、15、31、33、38、57]通常将最初设计用于图像分类的标准DCNN以完全卷积的方式用作特征提取器。在这些网络中，

重复的空间池化迅速降低了特征图的空间分辨率（通常为32步），这对于深度估计而言是不希望的。
- 尽管可以通过多层反卷积网络[33、15、31]，多尺度网络[38、9]或跳过连接[57]通过合并更高分辨率的特征图来获得高分辨率的深度图，但这种处理不仅需要额外的计算和内存成本，而且还会使网络架构和训练过程复杂化。

与MDE的现有发展相比，我们建议将连续深度离散化为多个间隔，并将深度网络学习转换为序数回归问题，并提出如何通过DCNN将序数回归纳入密集的预测任务。更具体地说，我们建议使用间距增加离散化（SID）策略而非统一离散化（UD）策略执行离散化，这是由于深度预测的不确定性随底层地面真相深度的增加而增加的，表示在预测较大的深度值时最好允许相对较大的误差，以避免过大的深度值对训练过程的影响过大。在获得离散深度值之后，我们通过序数回归损失对网络进行训练，其中考虑了离散深度值的排序。

为了简化网络培训并节省计算成本，我们引入了一种网络体系结构，该体系结构避免了不必要的二次采样，并以一种更简单的方式而不是跳过连接来捕获多尺度信息。受场景解析的最新进展启发[60，4，62]，我们首先在最后几个合并层中删除了子采样，然后应用膨胀卷积来获得较大的接收场。然后，通过应用具有多个扩张速率的扩张卷积，从最后一个池化层中提取多尺度信息。最后，我们开发了一种全图像编码器，该图像以比完全连接的全图像编码器[2、10、9、35、28]低得多的内存成本有效捕获图像级信息。整个网络以端到端的方式进行培训，而无需进行分阶段的培训或迭代完善。在三个具有挑战性的基准上进行的实验，即KITTI [16]，Make3D [49、48]和NYU Depth v2 [41]，证明了该方法可以达到最新的结果，并且在性能上远胜于最新算法。

本文的其余部分安排如下:

section2: 对相关文献的简要回顾；
section3: 提出的详细方法；
section4: 除了在这些基准上的定性和定量性能外，我们还评估了所提出方法的多个基本实例，以分析这些核心因素的影响；
section5: 最后，总结了整个论文。

论文笔记_S2D.38_2018-CVPR_用于单目深度估计的深度有序回归网络

网络结构

论文笔记_S2D.38_2018-CVPR_用于单目深度估计的深度有序回归网络

论文笔记_S2D.38_2018-CVPR_用于单目深度估计的深度有序回归网络

基本情况

摘要

介绍

相关推荐