【论文概述】MMF (2019)
论文信息
题目:Multi-Task Multi-Sensor Fusion for 3D Object Detection
问题导入
3D 感知对于自动驾驶落地至关重要,每个传感器都有相应的缺点,转而采用 RGB + Point Cloud。此前的方案如 F-PointNet 采用级联方式会放大每个传感器的缺点;单阶段检测器如 ContFuse 在每个点上生成特征图,这受限于稀疏点云;两阶段检测器如 AVOD 在 ROI 上融合特征,这种方案帧率有点低。本文开发了一种多传感器融合的且能解决 2D/3D 目标检测,路面估计以及深度补全多任务的框架。
总体思路
如上图所示,首先,点云投影成稀疏深度图与 RGB 连接成 RGB-D 送入 CNN,产生浓密深度信息补全 Pseudo LiDAR 伪点云;其次,原始点云采用在线映射得到路面估计得到点云的 BEV 表示,送入 CNN;再次,将原始点云与深度补全的伪点云深度融合(这里是类似于ContFuse 的 point-wise 融合)送入 CNN,再进行类似于 AVOD 的 ROI-wise 融合,初步估计 3D 框,同时投影到 RGB-D 网络中,两种特征图裁剪后拼接;最后经过FC与NMS产生 2D 和 3D 框回归以及类别预测。
论文效果
如上图所示,这是定量分析,在 KITTI 的 2D,3D,BEV benchmark (car) 都做了测试,与 RGB-based,LIDAR-based 以及 RGB+LIDAR 的方案从 AP 和 Time 两方面做了对比,IOU 取 0.7。AP 为 76.75。
如上图所示,这是定性分析,红框是预测框,绿框是 GT。
如上图所示,这只是对比实验,分别研究各模块对 AP 的影响。这表明多传感器融合,深度补全,路面估计工作对 3D 检测工作 AP 的提升有贡献。
总结
这项工作的 Motivations 是将多尺度图像特征融合到了 BEV 中,联合了多种 tricks 来改进 3D 检测的 AP;但个人觉得框架有点复杂,不是一个端到端通用框架。