YOLOv4论文阅读

YOLOv4: Optimal Speed and Accuracy of Object Detection

摘要

据说有许多功能可以提高卷积神经网络(CNN)的准确性。需要在大数据集上对这些功能操作的组合进行实际测试,并对结果进行理论验证。某些操作可用于特定的模型,或仅用于小规模数据集;而一些操作,如 batch-normalization和 residual-connections,适用于大多数模型、任务和数据集。我们假设此类通用功能包括加权残差连接(WRC),跨阶段部分连接(CSP),交叉小批量归一化(CmBN),自对抗训练(SAT)和Mish**。我们使用以下新功能:WRC,CSP,CmBN,SAT,Mish**,Mosaic data augmentation,CmBN,DropBlock正则化和CIoU丢失,并结合其中的一些功能来实现最新的结果:Tesla V100上,MS COCO数据集的实时速度约为65 FPS,43.5%的AP(65.7% AP50) 。

1.引言

大多数基于CNN的物体检测器仅适用于推荐系统。 例如,通过慢速精确模型执行通过城市摄像机搜索免费停车位的过程,而发生车祸警告与快速不准确的模型有关。 提高实时物体检测器的准确性,不仅可以将它们用于提示生成推荐系统,还可以用于独立的过程管理和人工输入减少。 常规图形处理单元(GPU)上的实时对象检测器操作允许它们以可承受的价格进行大量使用。 最精确的现代神经网络不能实时运行,并且需要大量的GPU来进行大批量的训练。我们通过创建CNN来解决此类问题,该CNN在常规GPU上实时运行,并且训练仅需要一个常规GPU。(就是说以往的模型速度快的准确率不够,准确率高的速度不快)

YOLOv4论文阅读

这项工作的主要目标是设计生产系统中目标检测器的快速运行,并优化并行计算,而不是低计算量理论指标(BFLOP)。 我们希望可以轻松地训练和使用设计的对象。 例如,任何使用常规GPU进行训练和测试的人都可以获得实时,高质量且令人信服的对象检测结果,如图1所示的YOLOv4结果。我们的贡献总结如下:

1.我们开发了一种高效而强大的物体检测模型。 它使每个人都可以使用1080 Ti或2080 Ti GPU训练超快速和准确的物体检测器。(难怪我的1650训练不了)

2.我们在检测器训练期间,验证了state-of-the-art Bag-of-Freebies 和 Bag-of-Specials 检测方法的影响。

3.我们修改了最先进的方法,使它们更有效且更适合单个GPU训练,包括CBN [89],PAN [49],SAM [85]等。

2.相关工作