MTCNN总结

MTCNN(Multi-task Cascaded Convolutional Networks,多任务级联卷积神经网络) 

 同时实现人脸检测和对齐

 

MTCNN总结

 

当给定一张照片的时候,将其缩放到不同尺度形成图像金字塔,以达到尺度不变。

 

Stage 1:使用P-Net是一个全卷积网络,用来生成候选窗和边框回归向量(bounding box regression vectors)。使用Bounding box regression的方法来校正这些候选窗,使用非极大值抑制(NMS)合并重叠的候选框。全卷积网络和Faster R-CNN中的RPN一脉相承。

 

Stage 2:使用N-Net改善候选窗。将通过P-Net的候选窗输入R-Net中,拒绝掉大部分false的窗口,继续使用Bounding box regression和NMS合并。

 

Stage 3:最后使用O-Net输出最终的人脸框和特征点位置。和第二步类似,但是不同的是生成5个特征点位置。

 

 

训练

这个算法需要实现三个任务的学习:人脸非人脸的分类,bounding box regression和人脸特征点定位。

 

(1)人脸检测

这就是一个分类任务,使用交叉熵损失函数即可

 

(2)Bounding box regression

这是一个回归问题,使用平方和损失函数

 

(3)人脸特征点定位

这也是一个回归问题,目标是5个特征点与标定好的数据的平方和损失