3D Object Detection——BEV-based methods
MV3D:Multi-View 3D Object Detection Network for Autonomous Driving
AVOD:Joint 3D Proposal Generation and Object Detection from View Aggregation
代表1:MV3D
雷达点云与单目视觉融合提取3D bounding-box。
- 将雷达获取的3D点云投影到前视图和鸟瞰图;
- 在鸟瞰图上通过卷积网络提取特征,回归出初始的包含前景的3D proposal;
- 将粗糙的3D proposal投影到前视图和RGB图像,因为特征从不同的视角/模态通常有不同的分辨率,作者采用ROI pooling 为每一个模态获得相同长度的特征向量;
- 在鸟瞰图上也crop出特征,并将三种特征融合。融合方式采用深度融合方式;
- 用融合后的特征再次进行分类和回归。
输入数据:
深度融合:
代表2:AVOD
激光+单目相机
输入为RGB图像和BEV(Bird Eye View),利用FPN网络得到二者全分辨率的特征图,再通过Crop和Resize提取两个特征图对应区域的特征,并进行融合,对挑选出的top k 个3D proposal进行3D物体检测。
相比MV3D,改进有:
- 只使用BEV和RGB图像,不使用前视图数据和density数据,计算量更小;
- 在特征提取上,MV3D使用降采样后的特征图,而AVOD使用FPN提取全分辨率特征,有益于小目标检测;
- AVOD采用的是crop and resize operation进行不同视角特征提取;
- MV3D只是给出了8个顶点,没有任何的几何约束关系,而AVOD利用一个底面以及高度约束了3D Bounding Box的几何形状。