Improving Facial Attribute Prediction using Semantic Segmentation, in arxiv 2017.04

笔者最近在关注fine-grained方面的paper，发现有以下的方面去做：

1 part-based

2 weakly-supervised的，如second-orderless pooling（Compact Bilinear Pooling）等

3 还是weakly-supervised的，但用上了proposals/grids/regions（如selective search）等，在网络中同时做classification和detection。

该论文Improving Facial Attribute Prediction using Semantic Segmentation, In arXiv， 2017.04.同样是怎么利用image-level的labels，如人脸属性来做人脸属性分类的。

本博文除了该论文，还会涉及到另外一篇论文Weakly Supervised Deep Detection Networks. In CVPR, 2016.

废话少说，当然细节的东西还是各自看论文去。

Improving Facial Attribute Prediction using Semantic Segmentation, in arxiv 2017.04

由于这次的重点不是说论文里面的face parsing。至于怎么做face parsing的，还是看论文去。上面的图1的一个前提条件是，已经训练好face parsing net的了，而且由这个net来提供face的parsing maps。在做face attr分类时，parsing maps直接resize到对应conv feature maps的大小。

图1的b）和c）挺有意思的，但是从论文上看SSG的作用不大。不管怎样，SSG和SSP的目的是，利用parsing的结果来refine分类模型学到的feature map，使得模型能够充分利用spatial information（一般的做法是在最后一层做global pooling，这显然是spatial orderless的）：即每个feature map只响应一个对应part region（这里用parsing来表示）。

笔者比较感兴趣的是SSP，所以在这里就说下Weakly Supervised Deep Detection Networks. In CVPR, 2016.

Improving Facial Attribute Prediction using Semantic Segmentation, in arxiv 2017.04