3D目标检测之AM3D
论文:《Accurate Monocular Object Detection via Color-Embedded 3D Reconstructionfor Autonomous Driving》
参考戳这里
主要思路
先用2D目标检测网络和单目深度估计网络分别检测2D box和深度信息,然后将深度信息转化为三维点云。根据2D box对目标区域进行前景分割,得到目标实例。再利用注意力机制,将RGB图与点云信息结合(该论文的一个亮点),在用PointNet作为主干网络回归3D box。
RGB Informatin Aggregation
引入三维点云信息后,每个点被编码为一个6D向量:[x, y, z, r, g, b]。因为点云和rgb图像是不同模态的数据,若简单的将rgb信息与点云信息融合,并不能有较好的效果。所以,作者利用注意力机制将rgb信息与点云信息进行融合。
步骤如下:
1、生成注意力图G;
其中,为根据点云信息生成的特征图,f为从卷积层学到的一个非线性函数,
为sigmoid函数。
2、更新点云特征图
为逐元素相乘。
3、Regin Branch
a、根据2D box 从RGB图像中裁剪目标的ROI,并resize到128*128大小;
b、利用CNN提取目标特征;
c、特征融合,.
模型训练
训练分2个阶段,第一个阶段,根据原论文策略训练2D 目标检测和深度估计网络。第二个阶段联合训练3D目标检测。多任务loss如下:
Lloc对应3D检测网络(检测center、size、heading angle)。用corner loss回归3D目标框的8个角点坐标。