YoloV4论文学习

一、引言

贡献有三点:

  1. 开发了一个高效、强大的目标检测模型,可以让任何人仅仅通过1080TI或2080TI训练一个快速且检测准确的检测器。
  2. 通过大量的训练实验验证Bag of FreebiesBag of Specials对检测的影响。
  3. 改进CBN、PAN、SAM等等方法,使之更适合单GPU训练。

yolov4跟其他算法的对比图:

YoloV4论文学习

二、相关工作

2.1 目标检测模型

深度学习的目标检测器一般包含两个部分。第一,骨干网络(backbone);第二,检测头(head)。目前常见运行在GPU的骨干网络有VGGResNetResNeXtDenseNet;运行在CPU的骨干网络有SqueezeNetMobileNetShufflfleNet。

检测头通常分为两类:一步式检测器( one-stage object detector);二步式检测器(two-stage object detector)。典型的一步式检测器有R-CNN系列,RepPoints(也属于anchor-free);典型的二步式检测器有Yolo系列,SDD,RetinaNet。

近年来发展起来的对象检测器通常在主干和头部之间插入一些层,这些层通常用于收集不同阶段的特征图。 我们可以称之为物体探测器的颈部(neck)。

如下如图总结所示:

YoloV4论文学习

2.2 Bag of freebie

字面意思是“免费赠品”。论文里是这样解释的:训练一般是离线的,我们可以在训练阶段采用一些方法,在推理阶段不增加任何消耗以提高检测的准确性。符合这种的特性的方法常见的就是数据增强data augmentation),数据增强的中常用的两种方法是brightness, contrast, hue, saturation, 和noise等在内的光度畸变(photometric distortions)和random scaling, cropping, flflipping, and rotating等在内的几何畸变(geometric distortions )。当然也有其他方法,比如random erase 、CutOut等等。

另一个符合Bag of freebie的特性的方法就是Bounding Box (BBox) regression。最开始使用的是Mean Square Error (MSE),随后出现IoU loss(解决传统方法计算{x,y,w,h}的L1或L2损失时,损失会随着尺度的增加而增加的问题),改进版GIoU loss,再改进版本DIoU loss,最后的完整版本CIoU loss。

2.3 Bag of specials

字面意思是“特价赠品”。论文里是这样的解释的:对于某些插件模块或后处理方法,仅仅增加微小消耗但检测效果却显著提升。