3D Object Detection——BEV-based methods

 

MV3D:Multi-View 3D Object Detection Network for Autonomous Driving

AVOD:Joint 3D Proposal Generation and Object Detection from View Aggregation

 

代表1:MV3D

雷达点云与单目视觉融合提取3D bounding-box。

  1. 将雷达获取的3D点云投影到前视图和鸟瞰图;
  2. 在鸟瞰图上通过卷积网络提取特征,回归出初始的包含前景的3D proposal;
  3. 将粗糙的3D proposal投影到前视图和RGB图像,因为特征从不同的视角/模态通常有不同的分辨率,作者采用ROI pooling 为每一个模态获得相同长度的特征向量;
  4. 在鸟瞰图上也crop出特征,并将三种特征融合。融合方式采用深度融合方式;
  5. 用融合后的特征再次进行分类和回归。

3D Object Detection——BEV-based methods

输入数据:

3D Object Detection——BEV-based methods

深度融合:

 

3D Object Detection——BEV-based methods

 

代表2:AVOD

激光+单目相机

输入为RGB图像和BEV(Bird Eye View),利用FPN网络得到二者全分辨率的特征图,再通过Crop和Resize提取两个特征图对应区域的特征,并进行融合,对挑选出的top k 个3D proposal进行3D物体检测。

3D Object Detection——BEV-based methods

相比MV3D,改进有:

  1. 只使用BEV和RGB图像,不使用前视图数据和density数据,计算量更小;
  2. 在特征提取上,MV3D使用降采样后的特征图,而AVOD使用FPN提取全分辨率特征,有益于小目标检测;
  3. AVOD采用的是crop and resize operation进行不同视角特征提取;
  4. MV3D只是给出了8个顶点,没有任何的几何约束关系,而AVOD利用一个底面以及高度约束了3D Bounding Box的几何形状。