PointFusion文章个人理解
文章标题:PointFusion: Deep Sensor Fusion for 3D Bounding Box Estimation
作者:Danfei Xu,et al. Standford
1.网络概述
这个网络的输入是经过2D检测器处理的图片和对应的点云,网络的作用是做回归,输出3D BBox。
2.提取特征
分别使用Pointnet和Resnet对点云和图片进行处理。
其中对于pointnet的改造主要有两点:
1、去掉了batch normalization层,作者的解释是能够提高三维包围框的估计性能;
2、把T-net改成了旋转矩阵Rc。
3.特征融合网络
有两种:
global fusion
这里对应图中2D所示,把两个特征进行concatation,然后经过全连接层处理,直接回归8个顶点的坐标。它的损失函数为:
dense fusion
这个网络是为了克服目标尺寸差异的影响,受到2维目标检测启发设计的。这里把点云每个点的特征和图像特征拼接起来,一起进行处理,输出每个点的带有分数的3维包围框,测试中,分数最高的就是最终结果。
损失函数如上式所示。x是点到框的偏移。Lscore是分数损失函数,关于这个量的具体解释在3.3节。
这个损失函数用来让网络学习点到最近目标框的空间偏移量,
smoothL1损失函数相当于是在小于1的部分使用2范数(更smooth,且求导方便),在大于1的部分使用1范数(避免梯度爆炸,同时减少outlier的影响)