初次接触,对论文Deep Convolutional Network Cascade for Facial Point的几点想法(更新)
老师提出的问题:
问题一:
Table2是什么意思?
回答:首先L1,L2,L3代表三层网络,其中L1层包括了F1、EN1、NM1三个网络
绿框代表人脸检测框,黄色实心块代表实际所取的图片(来输入到网络中),蓝点代表大致前期特征点的结果,红点代表最终检测到的特征点
然后以第二排数据为例,
方向: (左, 右, 上, 下)
基准点(绿框):(0, 1, 0, 1)
黄色实心块: (-0.05,+1.05,-0.04,+0.84)
表示的是黄色圈内的EN1网络的输入,作者把整个绿色的方形的坐标当作(0,1,0,1),由图level1的框可以看到作者设定为“左边界比绿框长0.05,右侧比绿框略长0.05,上侧比绿框长0.04,下侧比绿框短0.16”。
至于说这些参数,应该是作者自定的。
问题二:
这场图的意思?
答:如原文所说“F1 adopts S0. Both EN1 and NM1 adopt S1”,即F1网络采用的是s0这一行数据的网络,EN1和NM1都采用的s1这一行数据的网络。
因为一个F1网络,他的结构是十层(四个卷积层,一个输入层,三个池化层,两个全连接层)
I(39,39)代表map大小为39*39,CR(s,n,p,q)代表卷积层(s为卷积核大小,n为一个卷积层中map的数量,p和q是有关权重的两个变量),p()是指的pooling池化层
竖着看,除s0,s1和s2外,其他的s3-s7都是作者尝试依照s0和s1调整参数后的网络情况(以做对比,找到最好的网络结构)
整个论文的源码并未在主页找到,不过有找到一个他人复现的代码,感觉相当不错的复现。