【论文概述】MV3D (2017)

论文信息

题目:Multi-View 3D Object Detection Network for Autonomous Driving

原文链接

代码链接

问题导入

本文主要针对自动驾驶场景下的 3D 环境感知。LIDAR 传感器的优势在于深度信息,摄像头的优势在于语义信息。此前 3D 感知工作有基于 RGB 的,也有基于 Point Cloud 的,但这些数据都存在一些缺陷,本文尝试提出一种 3D 检测框架,融合 RGB 和 Point Cloud 作为模型输入。

总体思路

【论文概述】MV3D (2017)
如上图所示,首先,本文提出一种多视角编码方案获得稀疏点云数据的密集表示,包括俯视图 BV 和前视图 FV;其次,3D 框推荐网络利用 CNN 先在 BV 上生成了候选 3D 框并把他们投影到了三种视角上,分别是 BV,FV 和 RGB;再次,深度融合网络通过对每个视角进行 ROI 池化操作把区域特征联合起来;最后,利用这些融合的特征预测了目标的类别并回归了定向 3D 框。

论文效果

【论文概述】MV3D (2017)
如上图所示,这是定性分析,与基于 RGB 的 3DOP 和基于 Point Cloud 的 VeloFCN 的实验效果作对比。 这表明 RGB 与 Point Cloud 融合数据作为 3D 检测框架输入大有可为。

【论文概述】MV3D (2017)
如上图所示,这是定量分析,与基于 RGB 的 Mono3D 和 3DOP 以及基于 Point Cloud 的 VeloFCN 在 KITTI benchmark 上作对比,IOU 分别取 0.25,0.5,0.7。实际应用中,一般取0.7。

【论文概述】MV3D (2017)
如上图所示,本文针对融合方式做了对比实验,三种融合方式如下图所示。这表明融合方式还需要进一步探索。
【论文概述】MV3D (2017)

总结

这项工作的 Motivation 在于探索了 RGB 与 Point Cloud 的融合方式,但检测精度一般(62.68%),这应该是融合方式还有待改进,将点云投影到 BV 与 FV 上不可避免的损失了一些点云信息。