PointFusion文章个人理解

文章标题:PointFusion: Deep Sensor Fusion for 3D Bounding Box Estimation

作者:Danfei Xu,et al.  Standford

 

1.网络概述

PointFusion文章个人理解

这个网络的输入是经过2D检测器处理的图片和对应的点云,网络的作用是做回归,输出3D BBox。

 

2.提取特征

分别使用Pointnet和Resnet对点云和图片进行处理。

其中对于pointnet的改造主要有两点:

1、去掉了batch normalization层,作者的解释是能够提高三维包围框的估计性能;

2、把T-net改成了旋转矩阵Rc。

 

3.特征融合网络

有两种:

global fusion

这里对应图中2D所示,把两个特征进行concatation,然后经过全连接层处理,直接回归8个顶点的坐标。它的损失函数为:

PointFusion文章个人理解

dense fusion

这个网络是为了克服目标尺寸差异的影响,受到2维目标检测启发设计的。这里把点云每个点的特征和图像特征拼接起来,一起进行处理,输出每个点的带有分数的3维包围框,测试中,分数最高的就是最终结果。

PointFusion文章个人理解

损失函数如上式所示。x是点到框的偏移。Lscore是分数损失函数,关于这个量的具体解释在3.3节。

这个损失函数用来让网络学习点到最近目标框的空间偏移量,

 

smoothL1损失函数相当于是在小于1的部分使用2范数(更smooth,且求导方便),在大于1的部分使用1范数(避免梯度爆炸,同时减少outlier的影响)

 

4.值得参考的目标检测领域优秀博客:

Faster RCNN源码解析(Tensorflow版)

R-FCN详解

[目标检测]YOLO原理

YOLO源码解析

SSD关键源码解析