主要思路

先用2D目标检测网络和单目深度估计网络分别检测2D box和深度信息，然后将深度信息转化为三维点云。根据2D box对目标区域进行前景分割，得到目标实例。再利用注意力机制，将RGB图与点云信息结合（该论文的一个亮点），在用PointNet作为主干网络回归3D box。

3D目标检测之AM3D

RGB Informatin Aggregation

3D目标检测之AM3D

引入三维点云信息后，每个点被编码为一个6D向量：[x, y, z, r, g, b]。因为点云和rgb图像是不同模态的数据，若简单的将rgb信息与点云信息融合，并不能有较好的效果。所以，作者利用注意力机制将rgb信息与点云信息进行融合。

3D目标检测之AM3D

其中， 3D目标检测之AM3D 为根据点云信息生成的特征图，f为从卷积层学到的一个非线性函数，为sigmoid函数。

3D目标检测之AM3D

3D目标检测之AM3D 为逐元素相乘。

a、根据2D box 从RGB图像中裁剪目标的ROI，并resize到128*128大小；

b、利用CNN提取目标特征 3D目标检测之AM3D ;

c、特征融合， 3D目标检测之AM3D .

训练分2个阶段，第一个阶段，根据原论文策略训练2D 目标检测和深度估计网络。第二个阶段联合训练3D目标检测。多任务loss如下：

3D目标检测之AM3D

Lloc对应3D检测网络（检测center、size、heading angle）。用corner loss回归3D目标框的8个角点坐标。