Object-based Semantic SLAM: MID-Fusion

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

Object-based Semantic SLAM: MID-Fusion

作者:robot L

链接:https://zhuanlan.zhihu.com/p/126624931

本文转载自是知乎,作者已授权,未经许可请勿二次转载。

主要内容

利用RGB-D相机估计:

  • 相机位姿

  • 物体几何信息。每个物体维护一个octree,树中存储该物体的多种几何信息,如TSDF值。

  • 物体语义信息。属于每类物体的概率。

  • 物体运动信息。是否运动。

  • 物体位姿信息。6DoF位姿。

创新点

  • 相机和物体跟踪:使用测量不确定性加权[19]。

  • 单帧RGB图片的物体的掩膜分割:Mask R-CNN实例分割+Maskfusion的边缘精修。

  • 基于体素的物体模型:包含符号距离函数(SDF),密度,前景概率和对应的权重。

  • 单帧掩膜与现存物体模型的关联:考虑交并比(IoU)。

  • 物体在当前帧坐标系中的位姿估计:对当前帧某个物体掩膜内的像素应用ICP和光流法来估计该物体在当前帧的位姿,并丢弃当前帧该物体掩膜中残差较大的像素。

不足/未来工作

  • 该方法将人当做外点去除,即在该方法中没有跟踪人的运动。

  • 系统效率随跟踪物体的数量逐渐下降。

  • 结合本文的稠密法和基于特征的方法得到更加准确的相机位姿估计结果。

B. Xu, W. Li, D. Tzoumanikas, M. Bloesch, A. Davision, S. Leutenegger. MID-Fusion: Octree-based Object-Level Multi-Instance Dynamic SLAM. IEEE International Conference on Robotics and Automation, 5231-5237, 2019.

摘要

我们提出了一个新的多实例动态RGB-D SLAM系统使用一个物体级别基于octree的体素表示。它能够在动态环境中提供鲁棒的相机跟踪,并同时连续估计场景中任意物体的几何,语义和运动性质。对于每个即将到达的帧,我们执行实例分割来检测物体并使用几何和运动信息精修掩膜边界。与此同时,我们使用一个面向物体的跟踪方法估计每个现存运动物体的位姿并鲁棒地跟踪相机相对静态场景的位姿。基于估计的相机位姿和物体位姿,我们关联分割的掩膜和现存模型并增量地融合对应的颜色,深度,语义和前景物体概率到每个物体模型中。与现存方法不同,我们的系统是首个从单个RGB-D相机中生成物体级别动态体素地图的系统,它能够被直接用于机器人任务。我们的方法能够在CPU上以2-3Hz运行,除了实例分割部分。我们证实它的有效性在仿真和现实世界序列中。

Object-based Semantic SLAM: MID-Fusion

图1.  我们系统的综述。给定RGB-D图片,我们的系统构建一个物体级别的稠密体素地图,其处理动态物体并忽略人。输入图片后,我们展示了标号的物体模型和具有颜色的重建。

1. 介绍

在SLAM中,位姿环境的地图和机器人位姿从车载传感器的数据中被同时估计。在最近几年,SLAM领域经历了快速的进步。它从稀疏SLAM[1][2]进化到稠密SLAM由于GPU增加的计算能力和深度传感器的可购性。最近,许多人开始使用深度神经网络和它们从大量训练数据中学习的能力了来提高SLAM。在SLAM中快速进化的研究,之后导致了在大量应用领域的巨大进步,例如机器人,虚拟现实(VR),和增强现实(AR)。

除了这些进步,许多工作仍然基于静态环境的假设,其中3D世界中的点一直在全局世界中维持同样的空间位置,唯一运动的物体是相机。这个假设带来了早期发展的成功,因为它缓解了地图估计和传感器位姿估计之间鸡和蛋的问题。一个相机位姿可以在一个移动坐标系和一个参考坐标系之间被估计,其基于这两张图片之间的相对变换由于相机的运动所导致。这是个基本的,但是很强的假设,允许联合概率推理(稀疏SLAM[4])或者替代的地图和位姿关系的优化(稠密SLAM[5])来解决SLAM。任何在环境中移动的物体将会被当做静态模型的外点,并且有意地被跟踪和建图所忽略。

这个理想化的设置,因此,只能处理少量动态元素,并且由于环境经常变化(特别是有人出现的时候),这种设置与许多实际应用不相符。一个能够在高度运动环境中工作的鲁棒SLAM系统,仍然是一个开放问题,我们尝试在本工作中解决它。

即使动态SLAM已经被研究了几十年[6],但是基于视觉稠密SLAM的方法最近才被探索。它们能够被分为三个主要方向。第一个方向将整个世界以非刚体的形式分解,为了包括可分解的/移动物体[7]。第二个方向致力于构建单个静态背景模型,同时忽略所有可能运动的物体,并因此提高了相机跟踪的准确率[8]-[11]。第三个方向建模动态元素通过为场景中每个可能刚体运动的物体创建一个子地图同时融合对应的信息到这些子地图中[12]-[14]。我们对第三个方向更感兴趣,因为我们相信与人类感知类似,感知地图中的实体对于感知变化环境的机器人来说将会是一个更合适的解决方案,并且该解决方案将会有更大的潜力达到有意义的地图表示。但是,大多数现存方法使用一系列面元建立地图,其在机器人任务中很难直接使用。我们知道的目前为止仅有的支持子地图体素地图的两个系统,是[13]和[15]。但是,前者被特定地设置为室外双目相机配置,并且后者只解决静态环境。这里,我们提出首个物体级别动态体素地图用于室内环境应用,其中空闲空间和每个物体模型的表面连接可以被表示。我们进一步提高了它的内存效率通过使用一个基于octree的结构。除了展示一些基于深度学习的令人满意的结果外,大多数方法[12]-[14]简单地使用来自神经网络的预测而没有在地图融合中使用太多精修。在本文中,我们整合并精修了语义预测通过融合它们到物体模型中。

本文的主要贡献被划分为四个方面。我们提出了

1)首个RGB-D多实例动态SLAM系统,使用体素表示。

2)一个更鲁棒的跟踪方法,通过使用测量不确定性的加权和为了物体跟踪的重新参数化。

3)一个整合的分割,使用几何,光度,和语义信息。

4)将语义分布和前景物体概率融合到基于体素的物体模型中。

2. 相关工作

在大多数SLAM系统中,环境被假设为静态的。为了在现实世界中解决动态环境,许多解决方案最近被提出,并且它们根据上一节描述的那样主要被分为三类。我们将在本节详细介绍和比较最后两类方法。第一个最直接的动态SLAM方法是将动态物体分割为外点,并在跟踪和重建中故意忽略它们来避免位姿估计的损坏。StaticFusion[9]使用组合相机运动残差,深度不一致性和一个正则项来执行分割。Barnes等人[10]学习分割可能运动的物体以一种自监督的方式,其被训练数据的可用性和经常错分静态物体所限制。Bescos等人[11]组合了Mask-RCNN[16]和深度不一致性检测来分割运动物体并进一步将这些区域从静态背景中分离出来。它们在动态环境中提供了比传统SLAM方法更鲁棒的方法,但是,我们的方法致力于同时跟踪和重建静态背景和场景中的动态和静态物体,同时,提供SOTA的跟踪准确率。

据我们所知,有三种方法提供了与我们类似的功能,并且能够在场景中重建多个运动物体——第三类解决动态SLAM的方法。Co-Fusion[12]分割物体通过ICP运动分割或者语义分割,然后基于ElasticFusion[17]分别跟踪物体。MaskFusion[14]分割物体使用来自Mask-RCNN的实例分割和几何边缘的组合,并跟踪物体使用和Co-Fusion相同的方法。Co-Fusion和MaskFusion都是用面元来表示地图模型,其是内存高效的,但是不能直接提供地图中的空闲空间信息,并且也没有表面连通性。DynSLAM[13]专注于室外环境,使用双目相机。相反地,我们的系统专注于有许多运动物体组成的室内环境,使用单个RGB-D相机。

关于系统成分的不同,我们的系统进一步区分于上述方法。在相机跟踪中,我们加权光度和几何项通过它们的测量不确定性,而不是如[17]中的单个权重。同时,为了对深度损失更加鲁棒,我们推导了不同帧的两项来互相弥补。为了跟踪物体,所有之前的方法使用一个虚拟相机位姿,其对于物体朝向是不鲁棒的,由于它很难收敛。我们发现通过在物体坐标系中重新参数化能够得到最好的鲁棒性。为了生成物体掩膜,我们组合二者的信息来提供更好的边界条件,而不是仅使用运动或者语义信息。当融合信息到物体模型中时,我们不仅融合深度和色彩信息,同时语义和前景预测也被融合进来,而之前的方法只使用来自神经网络的预测,而没有任何精修。在速度方面,所有上述三个方法甚至需要两个GPUs,而我们的方法,虽然只运行在CPU上,但能够达到类似DynSLAM[13]的速度。

另一个类似我们的最近工作是Fusion++[15],其声称一个物体级别体素地图但是在静态环境中。除了处理动态场景,我们的系统利用了联合光度和几何跟踪来鲁棒地同时跟踪相机和物体位姿,而Fusion++只使用几何跟踪来估计相机位姿。此外,为了得到更好的物体掩膜边界用于融合和跟踪,我们组合了几何,运动和而现存模型信息来精修掩膜边界而不是像Fusion++中一样只使用预测的掩膜。在读题表示方面,Fusion++基于离散的体素栅格,其遭受可扩展性问题,而我们表示所有物体模型在内存高效的octree结构中。

3. 符号和前提

在本文中,我们将使用如下记号:一个参考坐标系被表示为 Object-based Semantic SLAM: MID-Fusion 。从 Object-based Semantic SLAM: MID-FusionObject-based Semantic SLAM: MID-Fusion 的变换被记作 Object-based Semantic SLAM: MID-Fusion ,其由旋转矩阵 Object-based Semantic SLAM: MID-Fusion 和一个平移向量 Object-based Semantic SLAM: MID-Fusion 。对于每对图片,我们区分它们为在线( Object-based Semantic SLAM: MID-Fusion )和参考( Object-based Semantic SLAM: MID-Fusion )图片。例如,一个在线RGB-D图片包括密度图片 Object-based Semantic SLAM: MID-Fusion 和深度图片 Object-based Semantic SLAM: MID-Fusion ,其中2D像素位置记作 Object-based Semantic SLAM: MID-Fusion ,像素查找表(包括双线性插值)记作 Object-based Semantic SLAM: MID-Fusion 。视角投影和反投影被分别记作 Object-based Semantic SLAM: MID-FusionObject-based Semantic SLAM: MID-Fusion

在我们的系统中,我们存储每个检测的物体为分离的物体坐标系 Object-based Semantic SLAM: MID-Fusion ,其中 Object-based Semantic SLAM: MID-FusionObject-based Semantic SLAM: MID-Fusion 是物体的数量(不包括背景), Object-based Semantic SLAM: MID-Fusion 表示背景。我们假设一个规范静态体素模型被存储在每个物体坐标系中,构成我们多实例SLAM系统的基础。此外,每个物体被关联到一个COCO数据集[18]的语义类别标号 Object-based Semantic SLAM: MID-Fusion ,一个它的潜在语义类别标号的概率分布,一个相对世界坐标系的当前位姿 Object-based Semantic SLAM: MID-Fusion ,和一个二值标号 Object-based Semantic SLAM: MID-Fusion 表示是运动还是非运动。每个物体被表示在一个单独的octree结构中,其中每个体素存储标号距离函数(SDF)值,密度,前景概率和对应的权重。

4. 方法

A. 系统概述

图2展示了我们提出系统的流程。它由四部分组成:分割,跟踪,融合和光线投射。每个输入RGB-D图片被Mask R-CNN处理来执行实例分割,之后进行几何边缘分割和使用来自跟踪的运动残差来精修掩膜边界(第4节-D)。对于跟踪,我们首先跟踪相机,然后光线投射该位姿来寻找哪个物体在当该帧中是可见的。这也可以帮助我们关联局部物体掩膜和已存在的物体模型。我们对每个物体评估运动残差来决定它是否运动,然后跟踪运动物体(第4节-C)并精修相机相对静止世界的位姿——其包括当前静止的物体(第4节-B)。使用相机和物体的估计位姿,深度和颜色信息,以及预测的语义和前景概率被融合到物体模型中(第4节-E)。可见物体的检测和光线投射将在第4节-F中进行解释。

Object-based Semantic SLAM: MID-Fusion

图2.  提出方法的流程

B. RGB-D相机跟踪

本部分估计在线的相机位姿 Object-based Semantic SLAM: MID-Fusion ,其由两步组成。首先,它跟踪所有模型顶点,同时去除检测的行人;接着,它跟踪所有静态场景部分。两步被执行通过最小化稠密的点面ICP残差 Object-based Semantic SLAM: MID-Fusion 和光度(RGB)残差 Object-based Semantic SLAM: MID-Fusion ,其被加权通过单独的额测量不确定性, Object-based Semantic SLAM: MID-FusionObject-based Semantic SLAM: MID-Fusion

Object-based Semantic SLAM: MID-Fusion (1)

其中 Object-based Semantic SLAM: MID-Fusion 表示柯西损失函数, Object-based Semantic SLAM: MID-Fusion 是去除不合法关联(对于ICP),遮挡(对于RGB)和行人的掩膜。

对于每个ICP残差,我们使用[3]中提出的方法来最小化在线深度地图和渲染的参考坐标系中模型深度地图之间的点面深度误差:

Object-based Semantic SLAM: MID-Fusion (2)

其中 Object-based Semantic SLAM: MID-Fusion 是通过反投影的相机坐标系中的在线顶点地图, Object-based Semantic SLAM: MID-FusionObject-based Semantic SLAM: MID-Fusion 是世界坐标系中的渲染顶点地图和法向量地图。对于每个在线深度地图中的像素 Object-based Semantic SLAM: MID-Fusion ,它在渲染深度地图中的的对应 Object-based Semantic SLAM: MID-Fusion 可以被找到通过投影数据关联:

Object-based Semantic SLAM: MID-Fusion (3)

其中 Object-based Semantic SLAM: MID-Fusion 是参考坐标系的相机位姿。

为了最大化鲁棒性,我们组合ICP残差和光度残差通过渲染来自参考坐标系中模型的深度地图,并使用该深度地图来对齐光度一致性:

Object-based Semantic SLAM: MID-Fusion (4)

不同于之前的方法[2],我们评估该光度残差使用渲染的参考深度地图而不是原始的在线坐标系或者参考坐标系中的的深度地图。这种选择进一步提高了跟踪的鲁棒性,当原始输入深度不可用时,例如,当相机非常接近一个表面时。

我们进一步介绍一种测量不确定性权重来组合ICP和RGB残差。对于RGB残差,测量不确定性对所有像素被假设为常数。对于ICP残差,输入深度地图的质量和深度传感器的结构和深度范围有关。对于深度测量不确定性,我们采用[19]中的逆协方差定义。给定传感器参数,即基线 Object-based Semantic SLAM: MID-Fusion ,视差 Object-based Semantic SLAM: MID-Fusion ,焦距 Object-based Semantic SLAM: MID-FusionObject-based Semantic SLAM: MID-Fusion 平面上的不确定性 Object-based Semantic SLAM: MID-Fusion 和视差方向 Object-based Semantic SLAM: MID-Fusion ,深度传感器在 Object-based Semantic SLAM: MID-Fusion 坐标中的标准方差 Object-based Semantic SLAM: MID-Fusion 可以被建模为:

Object-based Semantic SLAM: MID-Fusion (5)

ICP残差使用测量不确定性的逆协方差的权重被定义为:

Object-based Semantic SLAM: MID-Fusion (6)

代价函数使用高斯牛顿方法最小化在三层从粗到精的方案中。必要的雅克比被忽略为了空间约束。

在执行初始的相机跟踪后,我们光线投射来发现视角内可见的物体。为了发现哪个物体是运动的,我们在在线坐标系中最精细的层级中再次评估 Object-based Semantic SLAM: MID-Fusion 。为此,RGB残差需要被重新构建为:

Object-based Semantic SLAM: MID-Fusion (7)

我们应用一个阈值到组合的残差 Object-based Semantic SLAM: MID-Fusion 来发现运动内点。如果内点率在物体的呈现掩膜内低于 Object-based Semantic SLAM: MID-Fusion ,那么我们认为该物体是运动的,并精修它的位姿(见第4节-C)。相机位姿进一步被精修通过使用与上述相同的目标函数和优化策略只跟踪静态物体。

C. 物体位姿估计

在本部分,我们描述如何估计运动物体的位姿。和基于虚拟相机视角的跟踪不同[12][10],我们提出使用物体中心方法,其对于较差的初始位姿猜测不敏感。我们仍然使用等式1中联合稠密ICP和RGB跟踪的加权方式,只是使用不同的ICP和RGB残差定义。在当前的构建中,我们估计物体和相机之间的当前相对位姿, Object-based Semantic SLAM: MID-Fusion ,通过对齐表示在在线物体坐标系中的在线顶点地图和表示在参考物体坐标系中的渲染地图:

Object-based Semantic SLAM: MID-Fusion (8)

该构架基于每个物体坐标系是一个静止规范物体模型,并因此点云必须对齐。提出的参数化导致更稳定的跟踪由于更小的旋转杆臂效应。当计算上述代价相对旋转的残差偏导数时[20],我们得到一项正比于 Object-based Semantic SLAM: MID-Fusion 的项,它非常小因为我们选择以物体坐标系为中心。类似地,我们也重新构建RGB残差为:

Object-based Semantic SLAM: MID-Fusion (9)

上述代价函数也被优化使用高斯牛顿方法在三层由粗到精的方案,其中 Object-based Semantic SLAM: MID-Fusion 被初始化为 Object-based Semantic SLAM: MID-Fusion

D. 组合的语义-几何-运动分割

对于每个RGB-D帧,我们使用Mask R-CNN[16]来找到语义实例,然后进行几何边缘精修来解决遗漏的掩膜边缘[14]。然后我们对将每个建图物体通过光线投射到在线坐标系中渲染实例掩膜。我们关联局由Mask R-CNN和几何精修生成的局部分割掩膜和现存物体模型通过计算交并比(IoU)。我们分配局部分割掩膜到IoU大于0.5的具有最大IoU的渲染掩膜中。与[14]相比,我们不需要预测的局部分割掩膜的语义标号和物体语义类别相同,因为预测可能具有高度不确定性。替代地,我们相信语义预测的概率融合来精修物体的语义标号(见第4节-E)。

对于不属于任何现存物体的分割掩膜,一个新物体模型将会被初始化(描述在第4节-E)。对于每个没有关联局部分割掩膜的已存在物体,我们将它用于接下来的融合过程。

在关联分割掩膜和物体模型之后,我们进一步精修分割任务基于物体跟踪的运动残差。我们评估最精细层的等式(1),但是,这次,我们评估在在线坐标系中的光度残差:Object-based Semantic SLAM: MID-Fusion (10)

联合ICP和RGB残差很大的像素被认为是外点并从分割掩膜中被滤除(残差很大说明物体关联找的不对)。

注:个人觉得公式(10)中的左侧应该是 Object-based Semantic SLAM: MID-Fusion

在整合之前,我们还基于局部分割掩膜生成了一个前景掩膜。前景概率的使用受[15]中的前景/背景概率启发,并允许避免由于错误的分割掩膜导致的虚假融合。在前景和背景区域的信息都被融合到模型中。为了避免损害octree结构的效率,我们使用膨胀的分割掩膜作为背景掩膜。在前景中的像素被分配为一个1.0的前景概率同时在膨胀的背景中的像素被分配为0的概率。对于Mask R-CNN未检测到的已存在的物体,我们分配前景概率为0.5由于它们低存在可能性。

E. 物体级别融合

从每帧中,我们使用前景和背景掩膜整合深度,颜色,语义和前景概率信息到物体模型中。使用相对位姿 Object-based Semantic SLAM: MID-Fusion 和深度,截断SDF(TSDF)被更新使用Vespa等人的方法[21]。同时在相同的像素中,颜色,前景概率被更新使用加权平均。对于每个语义融合,我们对于每个模型使用平均而不是贝叶斯更新来精修语义类别概率分布,因为后者经常导致过度自信当使用Mask R-CNN的预测时[15]。

对于每个没有关联到已存在物体的分割掩膜,我们初始化一个新物体模型,其坐标系以物体本身为坐标系。我们反投影所有掩膜中的点到世界坐标系中,然后发现这些点云的大小和中心。为了考虑可能的遮挡,我们初始化TSDF体素大小为3倍点云大小来避免额外的填充。我们选择体素分辨率,以致于每个体素大小略大于1mm为了支持细节的物体重建。在基于octree的结构中,未使用的体素不会被初始化,因此整个系统是内存高效的。Object-based Semantic SLAM: MID-Fusion 中的初始物体平移被选择为物体的左角落,并且朝向被对齐到世界坐标系中。

F. 光线投射

对于光线投射,我们使用一个Fusion++[15]中提出的类似方法。但是,如图2流程所示,我们的系统包括至少四个光线投射操作:跟踪中的深度渲染,寻找可见物体,IoU计算和可视化,其可能是计算密集的如果我们每次连续投影所有物体。为了加速,我们只投影一次来寻找可见物体,并避免在剩余步骤中投影当前帧不可见的物体。如[15]中所述,我们只投影其前景概率大于0.5的体素。对于从该视角不可见的物体都不被投影。

5. 实验

我们评估我们的系统在Intel Core i7-7700 CPU,3.5GHz,32GB内存的Linux系统中使用公开可用的权重和应用[22]没有任何精修。每个物体被存储在一个单独的基于octree的体素模型中,使用Supereight的源代码[21]进行修改。

A. 鲁棒的相机位姿估计

我们首先使用TUM RGB-D数据集[23]估计动态环境中的相机跟踪准确率。数据集提供具有真值相机轨迹的RGB-D序列,使用一个运动捕捉系统进行记录。我们报道常用的绝对轨迹误差(ATE)的均方根误差(RMSE)。为了评估不同相机运动的效果和环境变化条件,6组不同的序列被研究。我们比较我们的方法和5个SOTA动态SLAM方法:联合视觉里程计和场景光流(VO-SF)[8],StaticFusion(SF)[9],DynaSLAM(DS)[11],Co-Fusion(CF)[12]和MaskFusion(MF)[14]。VO-SF[8],SF[9]和DS[11]被设计为重建静态背景,动态部分被忽略(或者设置在DS[1]中被去瑕疵)。CF[12]和MF[14]被设计用于多物体重建。在所有这些方法中,DS[11]是为一个的方法使用基于特征的稀疏跟踪(根本没有重建移动的物体),同时剩余方法使用类似我们的稠密跟踪方法。为了公平比较,我们首先比较稠密跟踪方法,并将DS[11]看做一个额外的参考。表报道了我们的实验结果。

从表1中,我们可以看到我们的系统与稠密跟踪方法相比达到了最优结果几乎在所有的序列中。我们的方法甚至超过了VO-SF和SF,其被设计为动态环境中鲁棒的相机跟踪。图3展示了两个输入和在具有挑战性的"f3w halfsphere"场景中的重建结果。我们重点在输入图片中拒绝了分割掩膜,具有几何精修的掩膜被标记为行人(蓝色)和运动精修中的高残差区域(滤色)。可以注意到在图3中甚至当Mask R-CNN不能识别行人时,我们使用运动精修的的组合分割方法仍然可以拒绝它。DynaSLAM达到了最优的跟踪精度在大多数序列中,同时它是唯一一个稀疏的基于特征的SLAM系统在被测试的方法中。它展现了动态环境中特征跟踪器的潜在优势。作为未来工作的一部分,组合基于特征和直接稠密跟踪/建图的方法将会进一步提高相机跟踪准确率和鲁棒性。这将帮助我们克服当前在具有挑战性环境中定位失败的例子,例如反光或者快速运动的场景。

Object-based Semantic SLAM: MID-Fusion

表1.  相机跟踪的定量比较

Object-based Semantic SLAM: MID-Fusion

图3.  鲁棒的相机跟踪和动态环境中的背景重建(在"f3w halfsphere"序列中)。运动的人被拒绝由于其Mask R-CNN的语义编号(蓝色)或者运动精修(绿色)。

B. 其他成分的物体重建评估

我们也测试了我们的方法在全控制的模拟环境中使用闭帧渲染和轨迹仿真[24]。我们选择一个经典的室内场景,沙发和板凳在相机前平移和旋转。我们隐式地评估物体位姿估计准确率通过物体重建误差。

为了评估分割效果,我们使用真值掩膜(G. T. Seg.)代替分割流程。我们还比较了我们的面向物体的跟踪器和虚拟相机(V. C.) 跟踪来看是否重新参数化提高了跟踪准确率。我们进一步比较了Co-FUsion(CF)[12]使用它们公开的代码。表2报道了在这些实验中重建误差的均值和方差。结果显示我们的系统能够达到更准确的物体重建结果。使用真值掩膜和我们自己的分割成分的掩膜之间的差异可以忽略不计在特定的例子中。使用虚拟相机跟踪得到更高的误差证实了我们以物体为中心跟踪的可靠性,特别是对于大物体旋转时。图4展示了沙发重建的可视化比较。

Object-based Semantic SLAM: MID-Fusion

表2.  物体重建误差(AVG./STD. IN CM)

Object-based Semantic SLAM: MID-Fusion

图4.  运动沙发的重建误差比较

C. 真实世界应用

我们在大量场景中验证了我们提出的方法来展示它的能力。图5展示了在两个“旋转书籍” 和“茶杯和瓶子”的场景。对于每个输入图片,我们提供标号图片和重建来展示细节的重建,可靠的跟踪和分割。有了每个物体分离的体素地图,我们的目标模型互相不重合,对于多实例SLAM来说更合适相比于基于面元的系统。图6也展示了一个一个场景,其中我们的系统可以同时支持多于6个物体的鲁棒跟踪,同时维护高细节的重建。作为定性比较,我们也展示了Co-Fusion的重建,其没有成功地分割和重建这些运动物体,因为运动不充分大。此外,基于面元的系统,例如Co-Fusion和MaskFusion,没有提供每个物体的同等级别的细节。相反地,我们的系统可以维护高度细节的重建并同时保持内存高效由于octree数据结构的使用。更多结果可以在视频中被看到。

Object-based Semantic SLAM: MID-Fusion

图5.  定性沿着鞥:输入RGB(上面一行),语义编号预测(中间一行)和几何重建结果(下面一行)

D. 运行时间分析

我们评估我们动态SLAM系统每个成分的平均运行时间在不同的序列中,大致有3-6个物体在运动。每帧的处理时间(所有都在CPU上)平均为400ms,在每个场景中超过25个物体被生成。当一个新物体被检测到时,每个物体的初始化花费大概10ms。跟踪时间与运动物体数量有关,分割,整合和光线投影与课件物体的数量有关。更细节的计算时间的总结展示在表2中。

我们将强调我们系统只在CPU上运行,没有为了表现被高度优化。我们相信我们系统的高频率版本将会可用在利用GPU并行的情况下。

6. 总结

我们提供了一个新颖的方法用于多实例动态SLAM使用基于octree的体素表示。它鲁棒地跟踪动态环境中的相机位姿,并连续估计稠密几何,语义和物体前景概率。在许多场景中的实验结果证实我们方法在室内场景的有效性。我们希望我们的方法对于室内机器人应用具有帮助,其中环境变化感知,空闲空间,和物体级别信息将会为移动机器人的下一代赋能。

推荐阅读

吐血整理|3D视觉系统化学习路线

那些精贵的3D视觉系统学习资源总结(附书籍、网址与****)

超全的3D视觉数据集汇总

大盘点|6D姿态估计算法汇总(上)

大盘点|6D姿态估计算法汇总(下)

机器人抓取汇总|涉及目标检测、分割、姿态识别、抓取点检测、路径规划

汇总|3D点云目标检测算法

汇总|3D人脸重建算法

那些年,我们一起刷过的计算机视觉比赛

总结|深度学习实现缺陷检测

深度学习在3-D环境重建中的应用

汇总|医学图像分析领域论文

大盘点|OCR算法汇总

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

Object-based Semantic SLAM: MID-Fusion

▲长按加微信群或投稿

Object-based Semantic SLAM: MID-Fusion

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近1000+星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

Object-based Semantic SLAM: MID-Fusion

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题