论文学习 - 2014ECCV - TCDCN
目的:作为论文学习的笔记,供自己以后回顾。
内容主要是源自论文,外加上了自己的一些理解。
论文题目:Facial Landmark Detection by Deep Multi-task Learning
作者:Zhanpeng Zhang, Ping Luo, Chen Change Loy, and Xiaoou Tang
Dept. of Information Engineering, The Chinese University of Hong Kong
核心:
1.设计一个受限的损失函数,实现了多个辅助任务和主任务同时训练,去实现提高主要任务性能的目的。
2.实现 early stopping 解决了不同任务收敛速度不同的问题。
尚且不明白的知识点:
1.反向传播部分涉及了矩阵求导,自己还不会。
2.论文中4.5小节中将TCDCN作为一种初始化手段为RCPR方法提供帮助,这部分还没有看懂。
3.在4.1中使用Pearson’s相关系数研究微笑检测与面部关键点检测的相关性,对于Pearson’s 自己还不懂。
Motivation(动机)
1.多任务学习( multi-task learning)思想。
2.面部关键点检测会受姿态变化和遮挡影响。
3.面部关键点检测可以与姿态、性别、微笑和戴眼镜等检测任务共享相同输入图像。
4.不同检测任务之前可能存在内在联系,例如微笑会影响对于嘴角关键点的检测。
难点与解决方法
1.虽然不同检测任务共享相同的输入图像,但每个检测任务的决策边界不同
解决办法:设计一个受限的损失函数,对所有任务的损失可以进行反向传播,共同提高关键点的检测精度。
2.不同的任务有不同的学习困难程度和不同的收敛速度
解决办法:提出 early stopping 方法,用于终止达到结束条件的任务。
图1 比较 CNN、级联CNN、DCTCN 三种方法的预测结果
损失函数
传统的多任务学习尝试将多任务共同学习以提高泛化性能。论文中关于P(.)部分的解释与下图中不同,下面的解释只是自己的理解。
交叉熵损失函数部分参考链接:https://zhuanlan.zhihu.com/p/38241764
反向传播部分涉及了矩阵求导,这部分还看不懂