目标检测论文精读(7)- SSD


SSD原论文地址https://arxiv.org/pdf/1512.02325.pdf

Introduction

Innovations

目标检测论文精读(7)- SSD

  • SSD是一种single shot的检测器,速度比YOLO v1快,精度比Faster R-CNN高。
  • SSD的核心就是为从不同分辨率的feature maps得到的一组default box预测类别概率和框的偏移量。
  • 从不同分辨率的feature maps得到的default box是不同尺度大小和不同长宽比的。
  • SSD的设计使得整个训练是端到端的,即使对低分辨率的输入也是有效的。

architecture

目标检测论文精读(7)- SSD
SSD使用的基础网络是VGG16,SSD在VGG16的基础上把fc6和fc7换成了卷积层conv6和conv7,删掉了fc8和所有drop out层,并在后边加了4个卷积层。
然后对这几个feature maps(图中连红线的)用3*3的卷积核来预测default box的类别分数和框的偏移量。
最后再通过非极大值抑制得到最终的检测结果。

default box

目标检测论文精读(7)- SSD
对于每个feature maps上的每个网格生成不同尺度大小和长宽比的default box,如图(b)(c)所示,然后对于每个default box预测p个类别概率和4个与框的偏移量相关的目标标签。
default box匹配:如图(a)所示,假设已经给cat匹配到了2个default box,给dog匹配到了1个default box,那这几个default box就是正样本,其它就是负样本。

choosing default box

目标检测论文精读(7)- SSD
假设从m个不同分辨率的feature maps提取default box,最低层的尺度smin=0.2,最高层的尺度smax=0.9,然后其它每个feature maps上的default box的尺度计算公式如公式(4)所示。
default box的长宽比ar∈{1,2,3,1/2,1/3},由此default box的长度和宽度计算公式如上图文中所示,当长宽比取1时,再增加一个default box(具体参数见上图文中所述)。

Data augmentation

目标检测论文精读(7)- SSD
为了提高模型的鲁棒性,对于每张训练图片,有以下3种随机抽样策略:
1.使用原图。
2.从一个patch上抽样,jaccard最小值设置为0.1,0.3,0.5,0.7或0.9。
3.随机从一个patch上抽样。
然后抽样的patch被resize到固定大小,并以0.5的概率作随机水平处理。

loss fucntion

目标检测论文精读(7)- SSD

  • x=1或0,对应匹配和未匹配,N是匹配的default box数目,α=1.
  • 置信度损失采用softmax loss。
  • 定位损失采用平滑的L1损失。

Result

VOC2007 test result

目标检测论文精读(7)- SSD
从上图可以看到SSD不管在哪个数据集上的表现都比Faster RCNN要好,哪怕输入的是小分辨率的图片。

Model analysis

目标检测论文精读(7)- SSD
从上图可以看出数据增强、不同长宽比的default box、以及使用空洞卷积都对模型效果有提升作用。

Visualization of performance

目标检测论文精读(7)- SSD
对于动物这一类别,不相似类别误检率很低,但是相似类别误检率很高。
对于车辆这一类别,定位错误率和背景误检率很高,但相似类别误检率要稍低一些。
对于家具这一类别,定位错误率稍低一些。

注:本页面绝大多数图片来自原论文,小部分图片来自网络博客,引用本博文请注明出处。