NAN论文解读:Neural Aggregation Network for Video Face Recognition
Neural Aggregation Network for Video Face Recognition是CVPR2017的一篇论文,来源https://arxiv.org/abs/1603.05474。
主要目标是做基于视频的人脸识别。
网络分两个模块:
模块1 Feature embedding module:采用GoogLeNet+Batch Normalization的普通人脸识别网络,针对每张图像或者每帧图像的input,得到128D的特征向量。
模块2 Aggregation module:此乃本文的创新点,同一个人的多张图像或者视频序列通过模块1可以得到多个特征向量,将这些特征向量作为模块2的input,模块2能够学习到自适应的,内容相关的池化策略,从而得到一个融合后的128D的特征向量。
下图为本文架构核心: