深度学习计算机视觉从入门到精通——目标检测技术经典算法讲解
本篇文章:深度学习计算机视觉从入门到精通——目标检测技术经典算法讲解
接上一篇:《深度学习计算机视觉从入门到精通——目标检测技术及常用数据集》
文章链接:https://blog.****.net/weixin_44532659/article/details/104989643
一、目标检测技术经典算法讲解
经典算法讲解——RCNN
Selective Search
经典算法讲解——Fast RCNN
ROI Polling
经典算法讲解——Faster RCNN
Region Proposal Network
经典算法讲解——You Only Look Once(YOLO)
Region Proposal Network
输出向量大小为SS(B*5+C),例如7×7×(2×5+20)
S:网格的长或宽
B:每个网格需要负责的box
C:每个网格属于各个类别的分数
经典算法讲解——Single Shot MultiBox Detector(SSD)
经典算法讲解——Single Shot MultiBox Detector(SSD)
二、代码详解
代码详解——SSD
代码地址:https://github.com/gliese581gg/YOLO_tensorflow
代码地址:https://github.com/gliese581gg/YOLO_tensorflow
三、深度实战
深度实战——实际遇到的问题
目标检测技术在数据标注中,被应用广泛。如以下任务:
1、检测出图像内的人头
问题:目标大小不均,尺寸差距较大
实例:图像内人头计数
任务:检测出图像内的人头
难点:人在图像中由远到近,尺寸大小分布范围较大
解决方案:加入多尺度特征融合
2、 问题:正样本的检测容易被负样本干扰
解决方案:优化数据集
制作干扰因素较少的数据集
对有干扰的区域进行脱敏,例如在检测手部的时候需要进行脸部脱敏
增加训练集,以增强网络对负样本的抵抗力
数据集推荐:
559,460段50种动态手势识别数据
559,460段50种动态手势识别数据。采集场景分为室内和室外。数据涵盖男性女性,年龄分布为少年到老年,以少年和青年为主 。数据包括多种场景、多角度、左右手势变化、正反变化、旋转变化等。数据可用于智能家居、音响设备、车载系统等任务。
423人34,748张3D人体实例分割及人体22关键点 & 2D手势识别采集标注数据
数据采集要求包含多场景、多光照条件、不同角度、不同距离、多种附属物(包、扇子、玩具等)。在标注方面标注人体实例分割、人体22关键点(可见、不可见)、手势包围框(斜矩形框)等信息 。可用于人体实例分割,人体关键点定位,手势识别等任务。
314,178张18种手势识别数据
314,178张18种手势识别数据。该数据通过实地采集了不同年龄段的中国人在不同光照、场景下手势左右、正反、旋转变化等。该数据包括娱乐手势和数字手势,共18种。已标注手势21关键点、手势属性,可用于手势识别、人机交互、直播互动等任务。
183,997张手语手势关键点数据
183997张手语手势关键点数据。数据的人员总数为100人,男女比例约为1:1,年龄段分布为12-50岁。数据包括41种静态手势,95种动态手势 。在标注方面,对手势进行21关键点标注。数据可用于手势识别,手势关键点定位等任务。
3、问题:框贴合度不够
解决方案:堆叠式训练
Cascade R-CNN:https://arxiv.org/pdf/1712.00726.pdf
深度实战——算法层面的问题
1、问题:对于单阶段算法,正负样本极度不均衡,导致准确率较低
解决方案:Focal loss增加正样本的学习权重
Focal loss:https://arxiv.org/pdf/1708.02002.pdf
2、问题:对于双阶段算法,特征提取以及ROI Pooling均存在量化数值的操作,这样会使结果出现偏差
Mask RCNN:https://arxiv.org/pdf/1703.06870.pdf
解决方案:利用双线性插值寻找像素值
Mask RCNN:https://arxiv.org/pdf/1703.06870.pdf
本文内容来自:数据堂人工智能实验室
分享者:赵世智
如需文章ppt,可私信获取。