论文笔记_S2D.35-2017-IROS_利用cnns联合预测rgb图像的深度、法线和表面曲率

基本情况

  • 题目:Joint prediction of depths, normals and surface curvature from rgb images using cnns
  • 出处:Dharmasiri, T., Spek, A., & Drummond, T. (2017, September). Joint prediction of depths, normals and surface curvature from rgb images using cnns. In 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) (pp. 1505-1512). IEEE.

摘要

在开发全自动机器人时,了解场景的3D结构至关重要。为此,我们提出了一个新颖的基于深度学习的框架,该框架仅通过使用单个RGB图像即可估算深度,表面法线和表面曲率。据我们所知,这是使用机器学习方法从颜色估计表面曲率的第一项工作。此外,我们证明了通过调整网络以推断出精心设计的特征(例如表面曲率),我们可以在估计深度和法线时实现更高的性能,这表明网络指导仍然是设计和训练神经网络的有用方面。我们进行了广泛的实验,对网络进行了训练以推断出不同的任务,同时使模型容量保持恒定,从而根据手头的任务生成不同的特征图。我们的性能优于以前的最新基准,后者可以同时估计深度和法线,同时可以并行预测曲面曲率。

1 介绍

从原始数据中提取信息是机器人技术中一个经过充分研究的问题。视觉图像就是这种原始数据的一种形式,并且已在社区中广泛使用,以解决一系列问题,包括图像分割[1],定位与建图[2],视觉伺服[3]等,并且存在连续的问题。旨在最大程度地提取信息量的研究流。在本文中,我们证明了仅使用RGB图像作为输入就可以估算几何量,例如表面曲率。据我们所知,这是证明这种能力的第一项工作。

表面曲率是重要的几何表面特征,它指示法线方向在任何特定点上的变化率。它已被证明对分割距离图像和3D数据特别有用[4 ,5,6,7]。准确估计表面曲率的关键挑战是其对输入数据中噪声的敏感性,因为它是二阶表面导数,因此受到噪声的二次影响。先前的工作表明,神经网络可用于仅从单个RGB图像[8、9、10、11]提供准确的几何估计,包括估计深度和法线。在这项工作中,我们扩展了网络以估计主表面曲率以及深度和法线,并证明我们可以从单个RGB图像中准确执行此任务。

与普遍认为手工设计的功能比学习的功能逊色的普遍看法相反,我们认为精心设计的功能与机器学习的表示相结合可提供更高的性能。应该强调的是,设计的功能不是我们手工计算的,而是由网络本身作为推理管道的一部分进行预测的。更具体地讲,我们通知网络以准确估计单个数量(例如深度,法线或曲率),网络应学习其他两个数量的内部表示形式。我们通过在多任务学习框架中估计曲面曲率,曲面法线和深度来证明这一点,与将它们作为单独的任务进行训练相比,它可以为我们提供更好的结果。我们采用两阶段学习过程,其中将所有三个量的粗略水平预测用作更精细层的特征图。在这个意义上,我们的工作类似于[8],正如Eigen等人所述。还使用一个网络估算了三个数量(深度,表面法线和语义标签)。我们与他们的方法之间的根本区别在于,我们尝试估计的三个量在原始级别上更为紧密地耦合,尽管语义标签虽然明确相关,但应被视为与其对应深度和法线相比更高的数量。我们定量和定性地表明,通过估计深度和法线的视点不变量(表面曲率),我们能够在NYUv2数据集[12]的深度和表面法线上获得更好的结果。我们认为,围绕细分任务(例如Amazon Picking Challenge)进行操作的机器人应用程序可以从我们的方法中受益。

我们的贡献如下:

  • 一种使用纯RGB图像估算物体表面曲率的新技术(方法:第IV-C节,结果:第VI-C节)
  • 一个可以共同预测深度,表面法线和曲率的框架。(方法:第四节,结果:第六节)
  • 证明联合训练可以提高所有三个任务的准确性,同时保持模型能力不变(方法:V-C节,结果:表I,II,III)

论文笔记_S2D.35-2017-IROS_利用cnns联合预测rgb图像的深度、法线和表面曲率

论文笔记_S2D.35-2017-IROS_利用cnns联合预测rgb图像的深度、法线和表面曲率

论文笔记_S2D.35-2017-IROS_利用cnns联合预测rgb图像的深度、法线和表面曲率