Complex-YOLO: An Euler-Region-Proposal for Real-time 3D Object Detection on Point Clouds
Complex-YOLO: An Euler-Region-Proposal for Real-time 3D Object Detection on Point Clouds
简介
在这项工作中,作者通过特定的复数回归策略扩展了YOLOv2(一个用于RGB图像的快速2D目标检测网络),来在笛卡尔空间中估计多类别3D包围框。为此,作者提出了欧拉区域提议网络Euler-Region Proposal Network (E-RPN)来估计目标的位姿,添加虚函数和实函数到回归网络中。这样做的结果是能够有封闭的复数空间,避免了在单个角度估计中具有的奇异性。
3D目标检测整体框架
整体框架与yolo-v2类似
点云预处理
将覆盖传感器原点正前方80米x 40米的区域的点云,根据高度、强度和密度对RGB地图进行编码。网格图的大小定义为n=1024,m=512。我们将Velodyne的原始数据定义为:考虑到 z 的范围是因为激光雷达的摆放高度为1.73m,这样大概可以包括进地面以上3m的区域。利用KITTI数据集给出的标定数据,可以定义将每个点云中的点映射到RGB图像中一个网格的映射函数,描述这个映射的集合为:
于是就可以计算每个像素的3个通道,其中代表了最大高度,为最大强度,为该网格内归一化的密度。
网络结构
Complex-YOLO网络以RGB俯视图输入,使用简化的YOLOv2架构,并且使用E-RPN进行扩展。
E-RPN
Euler-Region-Proposal,该网络接收CNN提取的特征图像,输出目标的3D位置,大小,类别概率和朝向,为了获得正确的方向,我们修改了常用的网格RPN方法,在其上添加了一个复杂角度:
Anchor Box
Yolov2物体探测器预测每个网格单元有五个盒子。所有这些都是用有益的先验,即锚箱初始化的,以便在训练期间更好地融合。由于角度回归,自由度,即可能的先验次数增加了,但由于效率原因,我们没有扩大预测次数。因此,我们根据Kitti数据集内的方框分布,仅预先定义了三种不同的尺寸和两个角度方向。
Loss
- 复角度回归
每个物体的方向角可以通过相应的回归参数tim和tre计算得出,它们对应于复数的相位。角度只需使用。一方面,这避免了奇异性,另一方面,这导致了一个封闭的数学空间,从而对模型的推广产生了有利的影响。我们可以将回归参数直接链接到损失函数中。 - 回归参数定义如下:
- 最终扩展YOLO的损失函数为: