人脸识别的影响因素以及人脸识别经常用到的数据集
摘录:https://zhuanlan.zhihu.com/p/34436551
影响算法性能的因素:
1.训练集: 一般训练集类别数越多,图像数量越多,训练效果越好。此外训练集的收集和标注质量,不同类别的样本数量是否均衡,都对训练有影响。
2.CNN: 一般CNN的容量越大,训练效果越好。CNN的模型容量参考ImageNet上的分类性能,与参数数量和运行速度并不是正比关系。
3.LOSS: 这部分才是前面介绍的loss相关影响,特别注意,对比某个loss的性能提升,要综合考虑训练集和CNN,不能简单的看LFW上的识别率。
最常用的两个人脸识别测试库,和以上推荐算法的性能比较,结果来自论文:
LFW:,使用最多的必跑测试库,从2015年FaceNet的99.63%开始就接近饱和了,目前所有算法都在99%以上,比较意义不大。特别举两个用Softmax loss训练的例子:COCO中half MS-1M训练Inception ResNet是99.75%,ArcFace中MS1M训练ResNet100是99.7%。
MegaFace:,目前最大也最具挑战性的测试集,但由于这个数据集质量较差,非常容易作弊,建议以有开源代码的算法,自行训练的结果为准。
注: 上表中AM-Softmax和InsightFace都做了更细致的训练集重叠清洗,最后一行代表InsightFace对测试集也做了清洗的结果。