CVPR2018《Seeing Small Faces from Robust Anchor’s Perspective》论文阅读整理
《Seeing Small Faces from Robust Anchor’s Perspective》发表于CVPR2018,作者有:Chenchen Zhu 、Ran Tao 、Khoa Luu 、Marios Savvides ,来自卡内基梅隆大学(Carnegie Mellon University)。
本人将该论文整理为四个部分。分别是 介绍、新的anchor的生成策略(包括四种方法) 、实验 、结论。
1.介绍
首先,上面的图阐释了面部尺度大小和召回率及人脸与anchor的平均IOU间的关系。可以看到召回率和IOU基本呈现一种正相关的关系,大尺寸人脸的召回率和交并比明显比小人脸的效果好。作者认为检测不到小脸,是基于anchor调整的 bbox与小脸的匹配度不够。
于是,作者定义了一个概念叫做EMO,预期最大交叉,来说明人脸和anchor获取高交并比的能力。EMO score可解释两点:1. face bbox越大,matched anchor的iou score越大;2. anchor分布越密集,越容易match face。借此,提出一些改进的方法,希望来提高gt和anchor的IOU,提高检测到小人脸的概率。如:通过减小anchor步长,增加密度,额外的变换anchor的形状,随机变换人脸等来提高IOU,提高anchor被定为正样本的概率。
基于anchor的检测方法是通过分类和回归anchor box来检测对象的,anchor是一系列具有多种尺寸和长宽比的预定义盒子。训练期间,是通过IOU和gt匹配的。有两种情况,anchor会被委任成gt,1是IOU在所有anchor中最大,2是IOU大于阈值,小于最低阈值的话会被标记成背景。
a图可以看到anchor的分布,这里画了他三种尺度大小的分布情况,加号是他的中心点;b图是某一处的anchor与face相交的最大IOU的展示,这也是anchor的匹配机制。c表示的EMO的计算过程:假设人脸的中心点是(x,y),概率密度函数是p(x,y),则其概率密度函数满足二式的条件,一式是face和anchor的最大交并比,于是得到EMO的计算公式。
1.2.
3.
上图是一个具体的例子来说明EMO分数计算的。
假定面部大小和anchor一样都是l*l的,面部中心点距距离最近的anchor中心点横纵距离是(x’,y'),anchor附近中心点的距离是sa。面部中心点分布在两个anchor的中间范围内,即分布在(sa/2)*(sa/2)范围内。
则IOU如公式1,EMO如公式2.
公式1: 公式2:
该图是EMO和face尺度与anchor步长的关系,在面部尺度一定的情况下,步长越小,EMO分值越高。其实上面也讲到,就是步长越小anchor分布越密集,匹配到人脸的可能性就越大。由此启发,作者设计了第一种anchor更改策略。
2. Strategies of New Anchor Design
2.1.Stride Reduction with Enlarged Feature Maps
论文提出了新anchor设计的四种策略:1.随着特征图的扩大来减小anchor的步长。anchor步长与获取anchor的特征图的步长相同,因此可以通过扩大特征图、减小特征图的步长来减小anchor的步长,主要用到了这三种网络架构方法。
a 的双线性上采样,将特征图的宽高扩大2倍,对特征图进行反卷积,反卷积核由双线性上采样器的数值初始化,训练期间,反卷积核不断更新;
b在双线性上采样的基础上加了快速链接,将经过双线性上采样的特征图与上一层特征融合,这是为了保留高层特征的语义信息和底层特征的位置精度。但是前两种方法在扩大特征图时会引入多余的参数,增加计算量。
所以作者又提出 c 空洞卷积的这种方法,该方法旨在不用pooling的情况下增大感受野,同时特征图的大小也保持不变,也不会引入更多参数。
2.2. Extra Shifted Anchors
第二种方法:增加小尺度anchor的数量,尺度范围在0-32之间的。b是向斜右下移动,c是向下和右移动。
这个图显示的是减小步长和增加anchor后,面部尺度和平均IOU的关系,可见这两种策略对于小人脸来说效果比较明显。
2.3. Face Shift Jittering
面部抖动,还有一些脸离anchor中心比较远,为了增加这些面部和anchor的高交并比,训练期间随机进行抖动。
2.4. Hard Face Compensation
困难样本补偿,如果一个面部和周围所有anchor的交并比都没有超过阈值,就把分值最高的前N个anchor设置为正样本。经过试验,发现N一般设置成5,也就是通常说的top-5。
3. Experiments
本文的实验是在Resnet 101上进行的,用到的数据集有winder face、FDDB、AFW、Pascal Faces。
该表是本文提出的方法的各种变形和baseline的方法的结果比较,BU代表双线性上采样,BUS代表加了快速链接的双线性上采样,DC是空洞卷积,16X1等这些代表anchor在不同尺度及长宽比下的比较,SJ是面部随机抖动,HC是困难样本补偿。
对于最后一列的困难样本来说,本文提出的方法在不同程度上都有所提高。
表2 是我们的方法在困难样本不同size下的平均精度的比较。
图10是在困难样本上速度和精度的比较,可见,本文的方法精度比其他方法都高,精度一定的情况下,速度更快。
这是在wider face,三种子数据集下和其他方法的精度的比较。
这是在这三种数据集下和其他方法的比较,也是本文的方法更好。
这是通过本文的方法得到的检测结果的展示图。
4. Conclusion
简单的总结:该论文主要解决小人脸和ancho低交并比的问题。提出新的EMO得分,去表示anchor和人脸获得高交并比的能力,并提出一些简单有效的策略设计anchor,实现高交并比。最后,本文的方法在widerface等数据集上得到了很好的结果。
这是个人对本文的理解整理,欢迎借鉴,如果有错,敬请指正!!!!