深度学习计算机视觉从入门到精通——目标检测技术经典算法讲解

本篇文章:深度学习计算机视觉从入门到精通——目标检测技术经典算法讲解
接上一篇:《深度学习计算机视觉从入门到精通——目标检测技术及常用数据集》
文章链接:https://blog.****.net/weixin_44532659/article/details/104989643

一、目标检测技术经典算法讲解

经典算法讲解——RCNN
深度学习计算机视觉从入门到精通——目标检测技术经典算法讲解
Selective Search
深度学习计算机视觉从入门到精通——目标检测技术经典算法讲解

经典算法讲解——Fast RCNN
深度学习计算机视觉从入门到精通——目标检测技术经典算法讲解
ROI Polling
深度学习计算机视觉从入门到精通——目标检测技术经典算法讲解
深度学习计算机视觉从入门到精通——目标检测技术经典算法讲解
深度学习计算机视觉从入门到精通——目标检测技术经典算法讲解

经典算法讲解——Faster RCNN
Region Proposal Network
深度学习计算机视觉从入门到精通——目标检测技术经典算法讲解
经典算法讲解——You Only Look Once(YOLO)
Region Proposal Network
深度学习计算机视觉从入门到精通——目标检测技术经典算法讲解
深度学习计算机视觉从入门到精通——目标检测技术经典算法讲解
输出向量大小为SS(B*5+C),例如7×7×(2×5+20)
S:网格的长或宽
B:每个网格需要负责的box
C:每个网格属于各个类别的分数

经典算法讲解——Single Shot MultiBox Detector(SSD)
深度学习计算机视觉从入门到精通——目标检测技术经典算法讲解
经典算法讲解——Single Shot MultiBox Detector(SSD)
深度学习计算机视觉从入门到精通——目标检测技术经典算法讲解
二、代码详解

代码详解——SSD
深度学习计算机视觉从入门到精通——目标检测技术经典算法讲解
代码地址:https://github.com/gliese581gg/YOLO_tensorflow

深度学习计算机视觉从入门到精通——目标检测技术经典算法讲解
代码地址:https://github.com/gliese581gg/YOLO_tensorflow

三、深度实战

深度实战——实际遇到的问题

目标检测技术在数据标注中,被应用广泛。如以下任务:

1、检测出图像内的人头
问题:目标大小不均,尺寸差距较大
实例:图像内人头计数
任务:检测出图像内的人头
难点:人在图像中由远到近,尺寸大小分布范围较大

深度学习计算机视觉从入门到精通——目标检测技术经典算法讲解
解决方案:加入多尺度特征融合
深度学习计算机视觉从入门到精通——目标检测技术经典算法讲解

2、 问题:正样本的检测容易被负样本干扰
深度学习计算机视觉从入门到精通——目标检测技术经典算法讲解

解决方案:优化数据集
制作干扰因素较少的数据集
对有干扰的区域进行脱敏,例如在检测手部的时候需要进行脸部脱敏
增加训练集,以增强网络对负样本的抵抗力

数据集推荐:

559,460段50种动态手势识别数据
559,460段50种动态手势识别数据。采集场景分为室内和室外。数据涵盖男性女性,年龄分布为少年到老年,以少年和青年为主 。数据包括多种场景、多角度、左右手势变化、正反变化、旋转变化等。数据可用于智能家居、音响设备、车载系统等任务。

423人34,748张3D人体实例分割及人体22关键点 & 2D手势识别采集标注数据
数据采集要求包含多场景、多光照条件、不同角度、不同距离、多种附属物(包、扇子、玩具等)。在标注方面标注人体实例分割、人体22关键点(可见、不可见)、手势包围框(斜矩形框)等信息 。可用于人体实例分割,人体关键点定位,手势识别等任务。

314,178张18种手势识别数据
314,178张18种手势识别数据。该数据通过实地采集了不同年龄段的中国人在不同光照、场景下手势左右、正反、旋转变化等。该数据包括娱乐手势和数字手势,共18种。已标注手势21关键点、手势属性,可用于手势识别、人机交互、直播互动等任务。

183,997张手语手势关键点数据
183997张手语手势关键点数据。数据的人员总数为100人,男女比例约为1:1,年龄段分布为12-50岁。数据包括41种静态手势,95种动态手势 。在标注方面,对手势进行21关键点标注。数据可用于手势识别,手势关键点定位等任务。

3、问题:框贴合度不够深度学习计算机视觉从入门到精通——目标检测技术经典算法讲解
解决方案:堆叠式训练
深度学习计算机视觉从入门到精通——目标检测技术经典算法讲解
Cascade R-CNN:https://arxiv.org/pdf/1712.00726.pdf

深度实战——算法层面的问题

1、问题:对于单阶段算法,正负样本极度不均衡,导致准确率较低
解决方案:Focal loss增加正样本的学习权重
深度学习计算机视觉从入门到精通——目标检测技术经典算法讲解
Focal loss:https://arxiv.org/pdf/1708.02002.pdf

2、问题:对于双阶段算法,特征提取以及ROI Pooling均存在量化数值的操作,这样会使结果出现偏差
深度学习计算机视觉从入门到精通——目标检测技术经典算法讲解
Mask RCNN:https://arxiv.org/pdf/1703.06870.pdf

解决方案:利用双线性插值寻找像素值
深度学习计算机视觉从入门到精通——目标检测技术经典算法讲解
Mask RCNN:https://arxiv.org/pdf/1703.06870.pdf

本文内容来自:数据堂人工智能实验室
分享者:赵世智
如需文章ppt,可私信获取。