每天一篇论文 363/365 Towards Better Generalization: Joint Depth-Pose Learning without PoseNet
Towards Better Generalization: Joint Depth-Pose Learning without PoseNet
Code
摘要
**在这项工作中,我们解决了自监督联合深度-姿态学习中尺度不一致的本质问题。**现有的大多数方法都假设在所有输入样本上都能获得一致的深度和姿态,这使得学习问题更加困难,导致在室内环境中的性能下降和泛化能力有限,以及长序列视觉里程测量的应用。为了解决这一问题,我们提出了一种新的系统,它明确地将尺度从网络估计中分离出来。该方法不依赖于PoseNet体系结构,而是通过直接求解稠密光流对应的基本矩阵来恢复相对位姿,并利用两视图三角剖分模块来恢复一个最新尺度的三维结构。然后,我们将深度预测的比例尺与三角点云对齐,并使用转换后的深度图进行深度误差计算和稠密重投影检查。我们整个系统可以端到端的联合训练。广泛的实验表明,我们的系统不仅达到最先进的性能KITTI深度和流估计,也极大地提高了泛化能力的现有self-supervised depth-pose学习方法下各种具有挑战性的场景,并达到最先进的结果在self-supervised KITTI上优于方法测程法和NYUv2数据集。此外,我们提出了一些有趣的发现,关于基于posenet的相对位姿估计方法在泛化能力方面的局限性。
贡献
本系统从根本上解决了设计中尺度不一致的问题。通过两视图三角剖分和显式尺度感知深度自适应,预测深度的尺度总是与估计姿态的尺度相匹配,使我们能够消除联合深度-姿态学习的尺度模糊性。同样,我们利用传统的两视图几何的优势,在自监督端到端方式下获得更直接、准确、鲁棒的深度监督,深度和流量预测可以相互受益。
由于我们的相对位姿直接来自于光流,我们简化了学习过程,不需要从PoseNet体系结构中学习对应的知识,使我们的系统在具有挑战性的场景中具有更好的泛化能力。参见图1中的示例。实验表明,我们的统一系统显著提高了自监督学习方法在长视频序列、看不见的摄像机自我运动和室内环境等具有挑战性的场景中的鲁棒性。具体地说,我们提出的方法在NYU v2数据集和KITTI测程法上比现有的基于自我监督学习的方法获得了显著的性能提升,并在KITTI深度和流量估计上保持了最新的性能。我们在TUMRGBD数据集上进一步测试了我们的框架,并再次证明了它与基线相比具有很好的泛化能力。
方法
问题:
现有的自监督深度-姿态学习方法的核心思想是通过对图像对施加几何约束来学习两个独立的单目深度和相对姿态估计网络。具体地说,利用预测的相对相机位姿将预测的深度重新投影到另一个图像平面上,然后测量光度误差。然而,这类方法在所有图像上都采用一致的深度和姿态,这可能会使学习问题变得困难,并在应用于视觉里程测量应用时导致尺度漂移。
为了解决上述挑战,我们提出了一种新的系统,该系统在训练和推理两方面都明确地解决了尺度一致性的问题。
我们不依赖于基于cnn的相对位姿估计,而是首先对光流进行预测,从稠密流对应关系中求解基本矩阵,从而恢复相对相机位姿。然后,我们对输入区域进行采样,并使用可微三角剖分模块来重建一个最新尺度的三维结构。最后,将预测深度与三角化结构进行尺度调整后,直接计算深度误差,并测量深度和流量的重投影误差,进一步加强端对端联合训练。
利用传统的基本矩阵算法从光流对应中恢复相机位姿。光流为每个像素提供对应,
尺度一致性
我们可以通过将预测深度与三角形结构对齐来解决尺度不一致的问题。具体来说,我们将单目深度估计与单标度变换s进行对齐,使变换后的深度Dt= sD与式(3)中三角剖分的psuedo groundtruth深度Dtri之间的误差最小化,然后将误差最小化作为深度损失进行反向传播。这种在线拟合技术也在最近的工作中被引入。
转换后的深度被显式对齐到三角化的三维结构上,其尺度由相对位姿尺度决定,因此尺度不一致性从本质上脱离了系统。此外,转换后的深度可以进一步用于计算稠密重投影误差Lp。这个误差用公式表示:
给定图像对(Ia, Ib),尺度变换深度估计(Da, Db),摄像机固有参数K,以及从光流Fab中恢复的相对位姿表,计算损失lpfb,测量深度重投影产生的光流与刚性流之间的二维误差。