Fast single shot detection and pose estimation 论文笔记
论文实在SSD论文的基础了,做了简单的改动。主要观点是建立了一个卷积网络以提供检测和视角(pose)估计。
数据集
使用的数据集有两个,一个是Pascal 3D+ Dataset, 数据下载链接http://cvgl.stanford.edu/projects/pascal3d.html。
另外一个是使用RGB摄像机采集的日常环境图片
流程
输入图片,经过一个SSD网络,得到bounding box, 类别和角度估计。
三个设计
(1)将角度空间离散为
(2)是否单独预测每一类的pose,也就是是否使用相同的网络预测所有的pose。实验结果表明使用同一个网络预测所有类别的pose,mAVP更高
(3)输入的size,300*300或者500*500。500*500获得的mAVP高,但是增加了时间消耗。
模型
在SSD的基础上,将每一个pose当做是一个类别添加到conf的输出中。
损失函数在之前SSD损失函数的基础上添加关于pose的损失函数,损失函数的计算与class相同,使用softmax。
评价指标
AP—标记 拥有正确的类别标签,并且IoU>0.5的bounding box
AVP—标记 拥有正确的类别标签和角度标签,并且IoU>0.5的bounding box
整个网络比较简单。