【论文阅读】Finding Tiny Faces
论文链接 :Finding Tiny Faces
一、角度
小目标一直是人脸检测的难点,在使用Faster R-CNN这一类方法作检测的情况下,目标检测和感受野是相关的,在本文中,作者将这个理解为context,并展开了讨论。同时,又因为深度网络自身的特性,作者又考虑了scale invariance,再因为数据集的分布问题,还补充了对contextual reasoning的讨论。最后,作者提出一个以图像金字塔为输入,并对针对不同scale有不同设计的,考虑到使用大context的模型
二、前提
整个网络是以Faster RCNN为基础,修改了前面RPN,主要是region proposals的选择方式
三、问题的讨论
3.1 context
首先,作者用了神经网络不同大小的feature map作为输出,后面分别加上FCN层来得到判断感受野中心是否为face中心的二值图。因为不同的feature map有不同的感受野,所以可以将它们当做是在不同大小的感受野上做模板匹配。
从res2和res5的表现可以看出,小的感受野的图片对小脸是友好的,这就是说的尺寸不变性的问题。当然了,由于感受野的问题,小的感受野无法覆盖整个大的图片,所以分别用对应感受野来判断很有必要。
同时,通过观察res4+res3+res2和单纯res2比较,可以发现context对小目标的提升是很明显的,但是不是context越多越好,到后面又影响了一部分性能
通过观察res5+res4+res3+res2和res4,可以看出这个方法对大目标的检测也有提升
3.2 resolution
作者又补充了这么一组实验,即将25×20的图片上采样到50×40后进行检测并将结果进行结合,及将250×200的图片下采样到125×100后进行检测和结果结合,这两个结果都提升了网络的性能,证明了网络有其自己适应的分辨率
这是因为pretrained的数据库ImageNet中,大部分是分布在40-120之间的,网络对这一部分的分辨率会更友好一些。
特别的,作者考虑到,即便是我们做了上下采样的工作,但是因为小目标会被大目标更难识别,对于那些特别小的object,即便放大了两倍,还是特别的小,不在40-120区间之间,所以还为其专门训练了一个FCN层
四、模型
进行RPN之前,会对图片进行0.5 1 2的上下采样,然后采用res2+3+4的输出来做RPN,其中,对于x2的图片,还会有一个为对小目标负责的branch