18.7.17 Towards Pose Invariant Face Recognition in the Wild小感
最近再读一篇文章《Towards Pose Invariant Face Recognition in the Wild》。
在人脸识别中,影响准确率的一个比较重要的因素是姿态的多样性。放眼目前的人脸识别技术,有两种方法为主流方向,一种是直接提取不同姿态的人脸特征,另一种就是再提取特征之前,现将人脸摆正。本文则认为,可以将两种方法联合起来使用,最终二者相互影响,实现准确率的提升。本文提出了一种Pose Invariant Model (PIM)的方法来识别自然场景的人脸。本文的方法有三个新颖之处:1.、PIM是一个新奇统一的深度框架包括了 人脸摆正(Face Frontalization sub-Net, FFN)和一个特征学习(Discriminative Learning sub-NetDLN)。2、FFN是一个设计好的双通道的GAN网络来同时感知全局和局部的细节。3、DLN是一个人脸识别的中通用的CNN,利用enforced交叉熵来优化网络。
本文的PIM方法的框架如图所示。
从图中不难看到,本文的方法的主要包含了两个部分,FFN和DLN。本文首先介绍了FFN。
(一)Domain Invariant Dual-Path Generator
对于FFN,本文采用的是领域变化的双通道生成器。一张看起来比较真实的正脸图片对人脸识别中特征的学习有着极其重要的作用。那么接下来需要解决的问题就是将包含了不同角度的人脸图片通过一定的方法转换为正连图片。为了能够同时旋转人脸和精确局部人脸特征,本文提出了双通道的生成器,其中一个通道的目的是推断全局的信息,另外一个则是局部细节。全局通道的先采用向下转换的编码器,然后采用向上转换的解码器。局部通道则是对人脸的局部信息(双眼,鼻子和嘴)进行进行自动编码。
本文的损失采用的是:
其中,第一个子损失表示的是对抗损失,第二个子损失表的是强迫交叉熵损失,第三个表示的是跨领域的对抗损失,目的是为了增强领域自适应和泛化能力。第四个表示的是像素化的损失,第五个表示的是对称损失,第六个表示的是为了较小尖峰伪影的应先的总变异损失。
为了能够具体的了解第三个开始的损失,作者分别介绍了这四个损失。
1.跨领域对抗损失。为了加强FFN,减小overfitting
2.像素化损失,为了加强多尺度内容的一致性(摆正后的人脸图片和ground truth的一致性)
3.对称损失(减小自遮挡的影响)
4.总变异损失(减小尖峰伪影的影响)
(二)Dynamic Convolutional Discriminator
DLN模块是一种通用的CNN,利用本文提出的强迫交叉熵损失训练的模块。这种方法能够减小类内距离并且增大类间距离。DLN利用FFN中摆正的图片作为输入,输出的是人脸的特征。
本文的实验部分将不做分析。