模式识别课程:目标检测③基于深度学习的检测算法


title : 目标检测③基于深度学习的检测算法

目标检测实验报告
检测所用软硬件+云服务器:
硬件:macOS或者windows电脑
软件:pycharm+生成的测试集
云服务器:滴滴云(https://www.didiyun.com/activity.html)输入博主的大师码:8996 ,只需⑨折,便不用体验搭环境的痛苦,安心训练自己的模型
模式识别课程:目标检测③基于深度学习的检测算法

在2012年之前,在目标检测领域还是以传统手工特征的检测算法为主,但是随着卷积神经网络(CNN)在2012年的兴起,目标检测开始了在深度学习下的暴力美学。在深度学习下,目标检测的效果比传统手工特征效果好太多。直至今日,基于深度学习的检测算法依然是目标检测的主流。

物体检测的两个步骤可以概括为:
步骤一:检测目标位置(生成矩形框)
步骤二:对目标物体进行分类
物体检测主流的算法框架大致分为one-stage与two-stage。two-stage算法代表有R-CNN系列,one-stage算法代表有Yolo系列。可以说,two-stage算法将步骤一与步骤二分开执行,输入图像先经过候选框生成网络(例如faster rcnn中的RPN网络),再经过分类网络;one-stage算法将步骤一与步骤二同时执行,输入图像只经过一个网络,生成的结果中同时包含位置与类别信息。two-stage与one-stage相比,精度高,但是计算量更大,所以运算较慢。

我们这里介绍的两种深度学习算法,都是one-stage算法。
基于回归方法的深度学习目标检测算法,他们一步到位,其基本步骤是: 给定一张图像, 通过设定合理的输出向量,使用回归的方式输出这个目标的边框和类别,一步到位。这种算法的优点是速度快,但是对于密集的小样本来说检测比较困难。比如 YOLO、SSD 等。

2.3.1 YOLO

2.3.1.1YOLO介绍
YOLO系列论文提出了一个新的物体检测的方法:You Only Look Once(YOLO)

YOLO 的核心思想就是把目标检测转变成一个回归问题,利用整张图作为网络的输入,仅仅经过一个神经网络,得到bounding box(边界框) 的位置及其所属的类别。

2.3.1.2 YOLOv1
论文:https://arxiv.org/pdf/1506.02640.pdf
YOLOv1是最早版本的YOLO,以下从概念上简单介绍v1的原理
1)网络结构
模式识别课程:目标检测③基于深度学习的检测算法

输入:4484483的彩色图片
中间层:若干卷积层和最大池化层
全连接层:2个全连接层,用来预测位置和类别概率值

2)实现细节
分类器的输出是一个one-hot vector,而检测器的输出是一个框(Bounding Box)。框,该怎么表示?
模式识别课程:目标检测③基于深度学习的检测算法

bounding box
总的来说,S×S 个网格,每个网格要预测 B个bounding box ,还要预测 C 个类。网络输出就是一个 S × S × (5×B+C) 的张量。
模式识别课程:目标检测③基于深度学习的检测算法

在实际过程中,YOLOv1把一张图片划分为了7×7个网格,并且每个网格预测2个Box(Box1和Box2),20个类别。所以实际上,S=7,B=2,C=20。那么网络输出的shape也就是:7×7×30。

3)损失函数和优化器
神经网络结构确定之后,训练效果好坏,由Loss函数和优化器决定。Yolo v1使用普通的梯度下降法作为优化器。这里重点解读一下Yolo v1使用的Loss函数:
模式识别课程:目标检测③基于深度学习的检测算法

损失是三部分:坐标预测损失、置信度预测损失、类别预测损失的加和

思考:对于x和y用差平方,而对于宽和高为什么进行开根处理?
——假设宽和高使用与x,y相同处理方式(直接差平方),当预测值与真实值图像偏移相同大小时,我们依此法计算出的误差是固定的,然而这与实际不符。实际对于图像框尺度大小不同的区域,相同偏移量下,小尺度图像效果是很差的,而较大尺度图像则效果不错。因此,此损失函数的设计细节是作者为使实验结果更加准确而设计的。
置信度预测损失:是正负样本求平方加和
类别预测损失:预测值减去真实值求平方

4)优缺点

优点:更快更准迁移能力强
缺点:对相互靠近的物体,以及很小的群体检测效果不好;对不常见的角度的目标泛化性能偏弱

升级版 YOLOv2
YOLOv2论文:https://arxiv.org/abs/1612.08242

为提高物体定位精准性和召回率,YOLO作者提出了 “YOLO9000: Better, Faster, Stronger” (Joseph Redmon, Ali Farhadi, CVPR 2017, Best Paper Honorable Mention),相比YOLOv1 提高了训练图像的分辨率;引入了faster rcnn中anchor box的思想,对网络结构的设计进行了改进,输出层使用卷积层替代YOLO的全连接层,联合使用coco物体检测标注数据和imagenet物体分类标注数据训练物体检测模型。相比YOLO,YOLO9000在识别种类、精度、速度、和定位准确性等方面都有大大提升。

2.3.2 SSD
YOlO和SSD算法作为“一步到位”算法的代表,他们的主要区别就是yolo只利用了末端特征图的信息,而SSD利用了最后几层特征图的信息,所以,从理论上说,SSD算法较yolo(起码是yolov1)来说,精确度必然更高。

卷积神经网络各层特征信息主要有如下区别:
1、低层卷积可以捕捉到更多的细节信息,高层卷积可以捕捉到更多的抽象信息。
2、低层特性更关心“在哪里”,但分类准确度不高,而高层特性更关心“是什么”,但丢失了物体的位置信息。
——《Visualizing and Understanding Convolutional Networks》.(可视化理解卷积神经网络)2014

SSD正是利用不同尺度检测图片中不同大小和类别的目标物体,获得了很好的效果。
模式识别课程:目标检测③基于深度学习的检测算法

VGG-16网络

对于每个特征图来说,SSD引入初始框的概念。对于不同的特征图,SSD总的尺度设计原则就是:随着网络层数加深(特征图的变小),初始框的尺度线性增加。最小的初始框尺度为0.2,最大的初始框尺度为0.9。

模式识别课程:目标检测③基于深度学习的检测算法

3.实例解析
3.1YOLO实例说明
以下对YOLOv3进行介绍,代码部分来自
tf2.0yolov3——malin9402,yunyang1994
https://github.com/malin9402/tf20/tree/master/4-Object_Detection/YOLOV3

pytorch :
https://github.com/ayooshkathuria/YOLO_v3_tutorial_from_scratch

3.1.1网络结构
随着CNN的发展和大量研究人员的努力,产生了数篇影响深远的论文,解决了在实际应用的诸多问题。yolov3借鉴了许多论文和思路,完善了yolo网络架构。
本节从原理和代码上介绍yolov3的网络架构,并深入探讨其网络架构上的进步和优点。

yolov3用darknet53作为基础网络架构

模式识别课程:目标检测③基于深度学习的检测算法

命名来源于它有53层卷积层= 2 + 12+1 +22+1 +82+1 +82+1 +4*2+1

未完待续——下一篇我会说一下YOLOV3相对于之前的网络架构的提升,相比之下,算力要求也会随之提升,所以我们需要借助滴滴云DAI平台来跑我们的代码项目
模式识别课程:目标检测③基于深度学习的检测算法