基于感知能力的点云实例分割

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

基于感知能力的点云实例分割

来源：OpenCV中文网

基于感知能力的点云实例分割

论文标题：Instance-Aware Embedding for Point Cloud Instance Seg

论文链接：https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123750256.pdf

论文发表：ECCV2020

目前尚未开源。

引言

该论文是关于点云的语义分割和实例分割类的文章。在计算机视觉点云是一个非常常见的概念，它特指在某个坐标系下点的数据集，其中每个点包含了丰富的信息，包括三维坐标X，Y，Z、颜色、分类值、强度值、时间等。点云可以将现实世界原子化，通过高精度的点云数据可以还原现实世界，可以说万物皆点云。点云语义分割简单的说就是给每个点一个label，比如说这个点是电脑还是杯子。

实例分割是指在语义分割的同时，把每个不同的物体给分割出来，比如一个房间里有很多物品，将这些物体中点进行分类。要知道在二维图像中进行实例分割可以达到一个不错的效果，但是对于三维点云的研究却远远落后。

传统的方法使用半径搜索或其他类似的方法来聚集局部信息。然而，这些方法不知道实例的上下文，无法实现实例的边界和几何信息，这对分离相邻对象至关重要。在该论文中作者通过提出一个实例感知模块来研究三维实例感知知识的影响。并且实验结果在精度和效率上都优于以往的方法。

论文贡献

该论文的贡献可以归结为如下三点，分别如下所示：

•作者提出了一个新的实例感知模块，成功地编码了与实例相关的上下文信息，用于三维点云实例分割。

•该方法对实例相关的几何信息进行显式编码，信息量大，有助于生成有区别的嵌入特征。

•该框架可以进行端到端的训练，在效率和有效性上都优于以往的方法。利用所提出的方法，可以在不同的任务上获得最新的结果。

模型介绍

3.1网络结构

论文中作者采用了一个Encoder-Decoder架构，编码器由两个任务共享。输入为点集基于感知能力的点云实例分割，为点的总数，为输入特征维数，其中输入特征包括颜色和位置信息，如X、Y、Z、R、G、B。解码器包含两个并行分支：一个用于语义分割，另一个实例嵌入编码。语义分割分支生成逐点分类结果，其中基于感知能力的点云实例分割为类别数。焦点损失用于解决训练过程中的类别不平衡。

此外，每个点的编码向量的实例分支输出具有基于感知能力的点云实例分割学习距离度量的特征，其中为嵌入维数。属于同一个实例的编码向量应该聚集在一起，属于不同实例的编码向量应该结束相隔甚远。在推理过程中，采用聚类算法得到最终的分组结果。通过检测实例的空间扩展，实现了一种新的生成实例感知知识。具体的模型结构图如下所示：

基于感知能力的点云实例分割

3.2实例感知模块

作者提出了一个实例感知模块（IAM），主要用于选择捕捉空间实例上下文的代表点。对于点基于感知能力的点云实例分割位置是，和，点水平偏移由上下文检测分支进行预测，以表示实例的空间扩展，表示为。实例的预测代表区域为，可以简单地表示为：

基于感知能力的点云实例分割

其中基于感知能力的点云实例分割是代表点的数目，代表第i个点。通过一个最小最大函数可以将每个点预测的轴对齐边界框进行表示。

学习这些具有代表性的区域是由空间边界框和实例分组标签共同驱动的，这样基于感知能力的点云实例分割就可以紧密地包围实例。论文中提供了三种损失：、和。最大化预测和真实之间边界框的重叠。在论文中3D IoU的损失如下所示：

基于感知能力的点云实例分割

其中基于感知能力的点云实例分割是点的总数，是第点的预测边界框，是第点的三维轴对齐边界框真实值。绿色点被选为，而红色点是预测的。如下图所示：显示检测到的代表点。绿色点是随机选择的，红色点是IAM输出的相应有意义区域。

基于感知能力的点云实例分割

3.3实例分支

通常情况下，实例解码器的输入是下采样点基于感知能力的点云实例分割，相应的特征表示为。这些特征通过几个上采样层逐渐传播到整个点集。为了在传播过程中对实例上下文进行编码，作者利用的有意义语义区域作为采样点。

3.3.1编码实例感知上下文

通过从包含实例空间范围的基于感知能力的点云实例分割中聚合信息来增强的表示。由于这些检测点不一定位于输入点上，因此采用KNN对RGB特征进行插值。然后将插值特征添加到原始中，生成包含局部表示和实例上下文的特征。在解码过程中，组合特征逐渐上采样，通过所有点传播实例感知上下文。

3.3.2 编码几何信息

几何信息对于识别两个接近的物体至关重要,为了学习有区别的编码特征，论文中直接将标准化的坐标质心连接到嵌入空间。考虑到由点基于感知能力的点云实例分割预测的质心为，其中是计算给定包围盒几何质心的函数，最终的逐点嵌入特征可以表示为，其中是实例分支产生的嵌入特征。为了使具有相同实例标签的点的几何信息保持一致，将预测的几何质心从同一实例拉向簇中心，方法是：

基于感知能力的点云实例分割

其中基于感知能力的点云实例分割是实例总数，是第个实例的点数。表示第个实例的平均预测几何质心，定义为和松约束。旨在迫使附加的几何信息具有较小的变化，并为分离相邻对象提供信息。

利用信息量逐点嵌入基于感知能力的点云实例分割学习距离度量，该距离度量可以将实例内嵌入拉向簇中心，并使实例中心彼此远离。损失函数公式如下所示：

基于感知能力的点云实例分割

其中基于感知能力的点云实例分割是实例总数，是第个实例的点数。和是软间隔。在训练过程中，第一项将实例簇相互推开，第二项将嵌入项拉向簇中心。在推理过程中，采用快速mean-shift算法对嵌入空间中的不同实例进行聚类。该方法是可以进行端到端训练的，并且有四个损失进行监督，如下所示：

基于感知能力的点云实例分割

实验结果

4.1数据集

该论文采用了三个具有实例注释的流行数据集：斯坦福三维室内语义数据集（S3DIS）、scannetw2和PartNet。S3DIS收集在6个大型室内区域，覆盖272个房间。整个数据集包含超过2.15亿个点，由13个常见语义类别组成。

ScanNetV2是一个RGB-D视频数据集,它包含1500多个扫描，分为1201、300和100个扫描，分别用于训练、验证和测试。该数据集共包含40 个类，对13个类别进行了求值。与上述两个数据集不同，PartNet是一个具有细粒度对象注释的一致的大型数据集。它由57000多个零件实例组成，涵盖24个对象类别。每个对象包含10000个点。

4.2评价指标

语义分割的评价指标是整体像素精度（mAcc）、类别平均准确度（oAcc）和平均交合并（mIoU）。实例分割采用平均实例覆盖率（mCov）、平均加权实例覆盖率（mW-Cov）、平均实例精度（mP-rec）和召回率（mRec）。

4.3实例感知模块

作者研究了所提出的实例感知模块的影响，该模块首先找出实例的代表点，然后对这些采样点的特征进行聚合。对空间扩展知识进行编码有助于分离和区分封闭实例。定性结果如下图所示，由于成功地编码了实例上下文和几何信息，论文的方法产生了区分结果，特别是对于附近的对象。论文所提出的方法显示出对密集场景的鲁棒性，这些场景需要更多的区分特征来区分不同的实例。

基于感知能力的点云实例分割

4.4 S3DIS的定量结果

如下表所示为语义分割任务的性能结果。采用的是6倍交叉验证进行评估。作者的方法建立在普通的PointNet++上，与使用多视图甚至图形CNN的方法相比，获得了更好的结果。

基于感知能力的点云实例分割

定性实例分组结果如下图所示。作者的方法与ASIS的性能进行了比较，显示了编码的实例感知知识的有效性。

基于感知能力的点云实例分割

4.5 ScanNetV2上的定量结果

ScanNetV2的定量性能如下表所示。和最新的ASIS相比，作者的方法取得了比较不错的结果，[email protected]和[email protected]分别提高了8.4%和6.5%。

基于感知能力的点云实例分割

下图显示了Scannetw2上实例分割的定性结果。

基于感知能力的点云实例分割

4.6 PartNet上的定量结果

PartNet上的性能如下表所示。与室内场景不同，PartNet提供了细粒度和层次化的对象部件注释。级别1包含最粗糙的批注，级别3包含最精细的批注。训练样本数量最多的五个类别分别是：椅子、储藏室、桌子、灯和花瓶。论文的方法在大多数类别和级别上都取得了最先进的结果，大大提高了性能。

基于感知能力的点云实例分割

下图显示了PartNet上实例分割的定性结果，并提供了不同的类别和细粒度级别。

基于感知能力的点云实例分割

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计汇总等。

下载3

在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

基于感知能力的点云实例分割

▲长按加微信群或投稿

基于感知能力的点云实例分割

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

基于感知能力的点云实例分割

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

基于感知能力的点云实例分割

相关推荐