模式识别课程:目标检测③基于深度学习的检测算法

title : 目标检测③基于深度学习的检测算法

目标检测实验报告
检测所用软硬件+云服务器：
硬件：macOS或者windows电脑
软件：pycharm+生成的测试集
云服务器：滴滴云（https://www.didiyun.com/activity.html）输入博主的大师码：8996 ，只需⑨折，便不用体验搭环境的痛苦，安心训练自己的模型
模式识别课程:目标检测③基于深度学习的检测算法

在2012年之前，在目标检测领域还是以传统手工特征的检测算法为主，但是随着卷积神经网络(CNN)在2012年的兴起，目标检测开始了在深度学习下的暴力美学。在深度学习下，目标检测的效果比传统手工特征效果好太多。直至今日，基于深度学习的检测算法依然是目标检测的主流。

物体检测的两个步骤可以概括为：
步骤一：检测目标位置（生成矩形框）
步骤二：对目标物体进行分类
物体检测主流的算法框架大致分为one-stage与two-stage。two-stage算法代表有R-CNN系列，one-stage算法代表有Yolo系列。可以说，two-stage算法将步骤一与步骤二分开执行，输入图像先经过候选框生成网络（例如faster rcnn中的RPN网络），再经过分类网络；one-stage算法将步骤一与步骤二同时执行，输入图像只经过一个网络，生成的结果中同时包含位置与类别信息。two-stage与one-stage相比，精度高，但是计算量更大，所以运算较慢。

我们这里介绍的两种深度学习算法，都是one-stage算法。
基于回归方法的深度学习目标检测算法，他们一步到位，其基本步骤是: 给定一张图像, 通过设定合理的输出向量，使用回归的方式输出这个目标的边框和类别，一步到位。这种算法的优点是速度快，但是对于密集的小样本来说检测比较困难。比如 YOLO、SSD 等。

2.3.1 YOLO

2.3.1.1YOLO介绍
YOLO系列论文提出了一个新的物体检测的方法：You Only Look Once（YOLO）

YOLO 的核心思想就是把目标检测转变成一个回归问题，利用整张图作为网络的输入，仅仅经过一个神经网络，得到bounding box（边界框）的位置及其所属的类别。

2.3.1.2 YOLOv1
论文：https://arxiv.org/pdf/1506.02640.pdf
YOLOv1是最早版本的YOLO，以下从概念上简单介绍v1的原理
1）网络结构
模式识别课程:目标检测③基于深度学习的检测算法

输入：4484483的彩色图片
中间层：若干卷积层和最大池化层
全连接层：2个全连接层，用来预测位置和类别概率值

2）实现细节
分类器的输出是一个one-hot vector，而检测器的输出是一个框(Bounding Box)。框，该怎么表示？
模式识别课程:目标检测③基于深度学习的检测算法

bounding box
总的来说，S×S 个网格，每个网格要预测 B个bounding box ，还要预测 C 个类。网络输出就是一个 S × S × (5×B+C) 的张量。
模式识别课程:目标检测③基于深度学习的检测算法

在实际过程中，YOLOv1把一张图片划分为了7×7个网格，并且每个网格预测2个Box（Box1和Box2），20个类别。所以实际上，S=7，B=2，C=20。那么网络输出的shape也就是：7×7×30。

3）损失函数和优化器
神经网络结构确定之后，训练效果好坏，由Loss函数和优化器决定。Yolo v1使用普通的梯度下降法作为优化器。这里重点解读一下Yolo v1使用的Loss函数：
模式识别课程:目标检测③基于深度学习的检测算法

损失是三部分：坐标预测损失、置信度预测损失、类别预测损失的加和

思考：对于x和y用差平方，而对于宽和高为什么进行开根处理？
——假设宽和高使用与x，y相同处理方式（直接差平方），当预测值与真实值图像偏移相同大小时，我们依此法计算出的误差是固定的，然而这与实际不符。实际对于图像框尺度大小不同的区域，相同偏移量下，小尺度图像效果是很差的，而较大尺度图像则效果不错。因此，此损失函数的设计细节是作者为使实验结果更加准确而设计的。
置信度预测损失：是正负样本求平方加和
类别预测损失：预测值减去真实值求平方

4）优缺点

优点：更快更准迁移能力强
缺点：对相互靠近的物体，以及很小的群体检测效果不好；对不常见的角度的目标泛化性能偏弱

升级版 YOLOv2
YOLOv2论文：https://arxiv.org/abs/1612.08242

为提高物体定位精准性和召回率，YOLO作者提出了 “YOLO9000: Better, Faster, Stronger” (Joseph Redmon, Ali Farhadi, CVPR 2017, Best Paper Honorable Mention)，相比YOLOv1 提高了训练图像的分辨率；引入了faster rcnn中anchor box的思想，对网络结构的设计进行了改进，输出层使用卷积层替代YOLO的全连接层，联合使用coco物体检测标注数据和imagenet物体分类标注数据训练物体检测模型。相比YOLO，YOLO9000在识别种类、精度、速度、和定位准确性等方面都有大大提升。

2.3.2 SSD
YOlO和SSD算法作为“一步到位”算法的代表，他们的主要区别就是yolo只利用了末端特征图的信息，而SSD利用了最后几层特征图的信息，所以，从理论上说，SSD算法较yolo（起码是yolov1）来说，精确度必然更高。

卷积神经网络各层特征信息主要有如下区别：
1、低层卷积可以捕捉到更多的细节信息，高层卷积可以捕捉到更多的抽象信息。
2、低层特性更关心“在哪里”，但分类准确度不高，而高层特性更关心“是什么”，但丢失了物体的位置信息。
——《Visualizing and Understanding Convolutional Networks》.（可视化理解卷积神经网络）2014

SSD正是利用不同尺度检测图片中不同大小和类别的目标物体，获得了很好的效果。
模式识别课程:目标检测③基于深度学习的检测算法

VGG-16网络

对于每个特征图来说，SSD引入初始框的概念。对于不同的特征图，SSD总的尺度设计原则就是：随着网络层数加深（特征图的变小），初始框的尺度线性增加。最小的初始框尺度为0.2，最大的初始框尺度为0.9。

模式识别课程:目标检测③基于深度学习的检测算法

3.实例解析
3.1YOLO实例说明
以下对YOLOv3进行介绍，代码部分来自
tf2.0yolov3——malin9402,yunyang1994
https://github.com/malin9402/tf20/tree/master/4-Object_Detection/YOLOV3

pytorch :
https://github.com/ayooshkathuria/YOLO_v3_tutorial_from_scratch

3.1.1网络结构
随着CNN的发展和大量研究人员的努力，产生了数篇影响深远的论文，解决了在实际应用的诸多问题。yolov3借鉴了许多论文和思路，完善了yolo网络架构。
本节从原理和代码上介绍yolov3的网络架构，并深入探讨其网络架构上的进步和优点。

yolov3用darknet53作为基础网络架构

模式识别课程:目标检测③基于深度学习的检测算法

命名来源于它有53层卷积层= 2 + 12+1 +22+1 +82+1 +82+1 +4*2+1

未完待续——下一篇我会说一下YOLOV3相对于之前的网络架构的提升，相比之下，算力要求也会随之提升，所以我们需要借助滴滴云DAI平台来跑我们的代码项目
模式识别课程:目标检测③基于深度学习的检测算法

模式识别课程:目标检测③基于深度学习的检测算法

title : 目标检测③基于深度学习的检测算法

相关推荐