YOLOv2、YOLO9000论文笔记

1. 简介:

从2016年论文《YOLO9000:Better, Faster, Stronger》翻译总结的。物体实时检测,可以检测9000多种物体。

介绍了YOLOv2、YOLO9000。YOLOv2在YOLO基础上进行了改进。YOLO9000联合优化detection和classification,可以检测9000种物体分类,使用了wordtree 来组合不同来源的数据,比如ImageNet和COCO。

文中主要是和fast r-cnn 、SSD对比。YOLO是单步检测,在准确率和速度方面权衡。

2. Better

YOLOv2、YOLO9000论文笔记

YOLO有两个缺点:
(1)定位不准确
(2)和基于region proposal的方法相比召回率较低。

如上图,YOLOv2从如下方面进行了提升:

  1. batch normalization、
  2. high resolution classifier(提高输入图像大小)、
  3. anchor box(认为人工的,没有采用,采用的dimension cluster)
  4. dimension cluster:k-means cluster选取anchor boxes.
    k-means中的距离衡量公式用的IOU:d(box,centroid) = 1 − IOU(box,centroid)
  5. direct location prediction:与YOLO相同,还是预测相对于网格单元的位置坐标。

YOLOv2、YOLO9000论文笔记

YOLOv2、YOLO9000论文笔记

  1. 细粒度(fine-grained) features:采用类似ResNet的思想,添加一个passthrough 层连接高分辨率特征和低分辨率特征。
  2. 多尺度训练(multi-scale):最小是320320,最大是608608,

实验结果如下:主要是和fast r-cnn、SSD对比。

YOLOv2、YOLO9000论文笔记

3. Faster

没有采用VGG-16,而使用参数更少的Darknet-19.
YOLOv2、YOLO9000论文笔记

速度对比如下:
YOLOv2、YOLO9000论文笔记

4. Stronger

主要是利用wordtree 结合detection和classification,同时利用COCO和imageNet数据,可以识别9000种物体。
YOLOv2、YOLO9000论文笔记

Wordtree使用multiple softmax操作,如下所示。

YOLOv2、YOLO9000论文笔记