【论文阅读】Finding Tiny Faces

一、角度

小目标一直是人脸检测的难点，在使用Faster R-CNN这一类方法作检测的情况下，目标检测和感受野是相关的,在本文中，作者将这个理解为context，并展开了讨论。同时，又因为深度网络自身的特性，作者又考虑了scale invariance，再因为数据集的分布问题，还补充了对contextual reasoning的讨论。最后，作者提出一个以图像金字塔为输入，并对针对不同scale有不同设计的，考虑到使用大context的模型

二、前提

整个网络是以Faster RCNN为基础，修改了前面RPN，主要是region proposals的选择方式

三、问题的讨论

3.1 context

【论文阅读】Finding Tiny Faces

首先，作者用了神经网络不同大小的feature map作为输出，后面分别加上FCN层来得到判断感受野中心是否为face中心的二值图。因为不同的feature map有不同的感受野，所以可以将它们当做是在不同大小的感受野上做模板匹配。

从res2和res5的表现可以看出，小的感受野的图片对小脸是友好的，这就是说的尺寸不变性的问题。当然了，由于感受野的问题，小的感受野无法覆盖整个大的图片，所以分别用对应感受野来判断很有必要。

同时，通过观察res4+res3+res2和单纯res2比较，可以发现context对小目标的提升是很明显的，但是不是context越多越好，到后面又影响了一部分性能

通过观察res5+res4+res3+res2和res4，可以看出这个方法对大目标的检测也有提升

3.2 resolution

【论文阅读】Finding Tiny Faces

作者又补充了这么一组实验，即将25×20的图片上采样到50×40后进行检测并将结果进行结合，及将250×200的图片下采样到125×100后进行检测和结果结合，这两个结果都提升了网络的性能，证明了网络有其自己适应的分辨率

【论文阅读】Finding Tiny Faces

这是因为pretrained的数据库ImageNet中，大部分是分布在40-120之间的，网络对这一部分的分辨率会更友好一些。

特别的，作者考虑到，即便是我们做了上下采样的工作，但是因为小目标会被大目标更难识别，对于那些特别小的object，即便放大了两倍，还是特别的小，不在40-120区间之间，所以还为其专门训练了一个FCN层

四、模型

【论文阅读】Finding Tiny Faces
进行RPN之前，会对图片进行0.5 1 2的上下采样，然后采用res2+3+4的输出来做RPN，其中，对于x2的图片，还会有一个为对小目标负责的branch

结果

【论文阅读】Finding Tiny Faces

【论文阅读】Finding Tiny Faces

一、角度

二、前提

三、问题的讨论

3.1 context

3.2 resolution

四、模型

结果

相关推荐