深度学习_人脸检测_LFFD轻量级人脸检测模型论文详解
LFFD: A Light and Fast Face Detector for Edge Devices论文地址
总体思路
LFFD是由中科院提出的新型单目标检测模型,适用于人脸、行人、车辆等单目标检测,速度快模型小效果好。
论文研究了感受野(RF)与有效感受野(ERF)的关联与重要性,使用感受野替代Anchors,即Anchor-free的方法。在一个基础模型结构上分别抽取8路特征图对从小到大的人脸进行检测,检测模块分为类别二分类与边界回归。
基于Anchors的方法存在的问题
- anchor box不能完全覆盖所有尺寸的人脸。
- anchor box匹配使用IOU进行评价,其阈值的设定靠经验,很难进行研究。
- 设定anchor box的数量和尺寸全靠经验,会导致样本不平衡和冗余计算。
感受野与有效感受野
- 感受野(RF):是输入图像上的一块区域,目标如果在感受野内更容易被检测。
- 有效感受野(ERF):处于感受野中心位置的像素对结构影响较大,越远越小。
很小的人脸往往难以确认检测,需要更多的上下文信息例如脖子和肩膀等来辅助检测。如下图所示:
感受野策略
- 小尺寸人脸需要充足的上下文信息。
- 中等大小的人脸需要少量的上下文信息。
- 大尺寸的人脸直接使用感受野。
模型结构
模型主要由四部分组成:tiny part、small part、medium part、large part。
模型中并没有采用BN层,因为BN层会减慢17%的推理速度。
尽可能快的进行下采样而保持100%的人脸覆盖。
感受野=天然的Anchors
- 可以在一定感受野下预测不同尺寸的人脸。
- 只有当人脸的真实中心位置在感受野内才进行匹配。
- 模型定义后,所有感受野就是均匀的固定的分布再输入图像上,无需再手动设计。
- 理论上感受野能覆盖所有尺寸的人脸。
训练细节
- 数据增强:颜色抖动、随机水平翻转、对各尺寸人脸随机采样。
- 对于一个感受野多于两个人脸的区域被舍弃。
- 损失函数。
- 难分负样本挖掘:对负样本损失值排序后选择最高的几个,保证正负样本比例为1: 10。
- 训练参数:Xavier初始化,输入图片img = (img-127.5)/127.5,decay为0(参数少),学习率0.1,之后以0.1倍数减小。