YOLOv4: Optimal Speed and Accuracy of Object Detection

摘要

据说有许多功能可以提高卷积神经网络（CNN）的准确性。需要在大数据集上对这些功能操作的组合进行实际测试，并对结果进行理论验证。某些操作可用于特定的模型，或仅用于小规模数据集；而一些操作，如 batch-normalization和 residual-connections，适用于大多数模型、任务和数据集。我们假设此类通用功能包括加权残差连接（WRC），跨阶段部分连接（CSP），交叉小批量归一化（CmBN），自对抗训练（SAT）和Mish**。我们使用以下新功能：WRC，CSP，CmBN，SAT，Mish**，Mosaic data augmentation，CmBN，DropBlock正则化和CIoU丢失，并结合其中的一些功能来实现最新的结果：Tesla V100上，MS COCO数据集的实时速度约为65 FPS，43.5％的AP(65.7% AP50) 。

1.引言

大多数基于CNN的物体检测器仅适用于推荐系统。例如，通过慢速精确模型执行通过城市摄像机搜索免费停车位的过程，而发生车祸警告与快速不准确的模型有关。提高实时物体检测器的准确性，不仅可以将它们用于提示生成推荐系统，还可以用于独立的过程管理和人工输入减少。常规图形处理单元（GPU）上的实时对象检测器操作允许它们以可承受的价格进行大量使用。最精确的现代神经网络不能实时运行，并且需要大量的GPU来进行大批量的训练。我们通过创建CNN来解决此类问题，该CNN在常规GPU上实时运行，并且训练仅需要一个常规GPU。(就是说以往的模型速度快的准确率不够，准确率高的速度不快)

YOLOv4论文阅读

这项工作的主要目标是设计生产系统中目标检测器的快速运行，并优化并行计算，而不是低计算量理论指标（BFLOP）。我们希望可以轻松地训练和使用设计的对象。例如，任何使用常规GPU进行训练和测试的人都可以获得实时，高质量且令人信服的对象检测结果，如图1所示的YOLOv4结果。我们的贡献总结如下：

1.我们开发了一种高效而强大的物体检测模型。它使每个人都可以使用1080 Ti或2080 Ti GPU训练超快速和准确的物体检测器。(难怪我的1650训练不了)

2.我们在检测器训练期间，验证了state-of-the-art Bag-of-Freebies 和 Bag-of-Specials 检测方法的影响。

3.我们修改了最先进的方法，使它们更有效且更适合单个GPU训练，包括CBN [89]，PAN [49]，SAM [85]等。

YOLOv4论文阅读

YOLOv4: Optimal Speed and Accuracy of Object Detection

摘要

1.引言

2.相关工作

相关推荐