Structure Aware Single-stage 3D Object Detection from Point Cloud
Structure Aware Single-stage 3D Object Detection from Point Cloud
- 作者:Chenhang He, Hui Zeng, Jianqiang Huang, Xian-Sheng Hua, Lei Zhang
- 机构:The Hong Kong Polytechnic University, DAMO Academy, Alibaba Group
- 出处: CVPR 2020
主要贡献
- 提出一种结构感知的单阶段网络,通过可丢弃的辅助网络和辅助损失,使得网络能够更好的学习结构信息
- 提出局部特征图融合的方法,减轻分类和回归任务的不匹配性
- 在KITTI 3D/BEV 检测集上占据榜首,并实现了25FPS的检测速度
写作词汇
frontal-view panorama: 正面全景
canonical coordinates:规范坐标
vanilla example: 原始的例子(等同于raw example)
研究方法
-
网络结构
包含Backbone部分,Detection部分和辅助网络三个部分。
主体网络中采用稀疏3D卷积提取空间信息,同时提取网络中非零的特征转换为点级特征点,并且对不同像素特征层进行插值操作,在最后跨层的对点级特征进行连接。检测网络对3D特征Reshape到2D(压缩到鸟瞰图的形式),运用2D卷积提取特征,并进行结果预测。在辅助网络中添加了两个辅助任务,一个是语义分割任务,即点级分类;一个是物体框中心点预测。通过这两个辅助任务,使得网络有更好的空间感知能力,给予网络更好的引导。在预测阶段,辅助网络是可以舍弃的,极大提升了运行速度。 -
Part-sensitive warping
为了解决置信特征图和目标框像素不匹配的问题,提出了PSWarp,是PSRoIAlign的有效变种。
该3D候选框可以压缩为一个BEV视图下的2D候选框。然后在该2D候选框中均匀采样K个点,在代码中K=4x7,28个点,形成4x7的阵列。目标框的置信度是由采样点的28个点的置信度共同决定的,如下公式所示:
而因为进行了8倍下采样,采样点的坐标可能就变为了小数,这个时候如果直接取整,位置就不匹配。一般情况应用双线性插值的操作。如第二个公式所示,分别计算了四个坐标到目标点的权重,针对每一个坐标, 就是在BEV下面对应的置信度,再对每一个采样点求平均。
PSWarp主要运用了双线性插值,从采样的点级的置信度转换为目标框的置信度,目标框的置信度是经过双线性插值后的采样点的平均。它的优点是速度快,是PSRoIAlign的1/10。