Articulated Pose Estimation by a Graphical Model with Image Dependent Pairwise Relations

1、整个文章的思路!!!

1.1训练过程

文章的训练时候的整体优化目标是

Articulated Pose Estimation by a Graphical Model with Image Dependent Pairwise Relations(1)

Articulated Pose Estimation by a Graphical Model with Image Dependent Pairwise Relations                                                            (2)   

Articulated Pose Estimation by a Graphical Model with Image Dependent Pairwise Relations                              (3)

Articulated Pose Estimation by a Graphical Model with Image Dependent Pairwise Relations  (4)

Articulated Pose Estimation by a Graphical Model with Image Dependent Pairwise Relations         ( 5)

Articulated Pose Estimation by a Graphical Model with Image Dependent Pairwise Relations                              (6)

整个过程的优化就是上面的这几步,在介绍这几步之前,先了解一下基本的概念

1.1.1)、其中(3)的含义是给定一个以某个关节点为中心的一个小的patch,这个关节点在这个patch里面的概率,(2)是无非在(3)式的基础上进行了一个参数权重的约束,I(l_i)的含义是已知i是胳膊肘假设,下文中所有的解释都是假设i是胳膊肘。I_i就是以胳膊肘为中心的一个小的patch。那么这个概率是怎么获得的呢?这个概率要用DCNN来进行训练的

1.1.2)(5)式是已知这个patch是胳膊肘,那么胳膊肘与肩膀和手腕的相邻的关系是怎样的就是用这个式子来刻画。那么怎么来获得这样的关系呢?以胳膊肘为例,对于胳膊肘和手腕的关系,会用Kmeans聚类聚成K类,作者取K=11,对于胳膊肘和肩膀,那么也用Kmeans聚类聚成K类,也是11,这对于其他关节部位都是适用的,那么胳膊肘和肩膀和手腕之间的关系就有121=11x11中情况了,对于手腕这样的关节因为只有一个相邻的点,所以就只有11个种情况,以此类推其他关节。这样每个patch都会出现各自的关系网。以胳膊肘为例,就会有121种关系网,再用DNN训练的时候,我们会查询我们的patch属于121中的哪一个,做成标签进行训练。示意图如下

Articulated Pose Estimation by a Graphical Model with Image Dependent Pairwise Relations

很明显这变成了一个分类问题,所以最后全连接的维度为S维,S的大小由论文中的公式决定,具体如下

Articulated Pose Estimation by a Graphical Model with Image Dependent Pairwise Relations

其中M_cN(c)这个变量就是刻画了胳膊肘和肩膀和手腕的121中关系,一共有N个关节,那么将每个关节对应的关系数量加在一起,就是最终的S,最后就是给定已知类别的patch和查表获得pair在121(只是假设)中的类型,来进行训练。这样就学习到了参数theta.

1.1.3)这样经过前面Kmeans的聚类和DCNN的学习(kmeans学习了聚类中心,DCNN学习了theta),接下来学习一系列的w参数,接下来送入patch到网络里面会获得胳膊肘对应的概率和胳膊肘对应的关节对的一系列概率,这些值都已经知晓,只有w是未知的,那么这个时候用来就来优化w,w包含了很多东西,既有基于unary的,也有基于图像对的,最后拉成向量用SVM来学习!w的学习结束!

Articulated Pose Estimation by a Graphical Model with Image Dependent Pairwise Relations

训练过程全部结束了

1.2进入推理过程,也即test过程

Articulated Pose Estimation by a Graphical Model with Image Dependent Pairwise Relations

因为将人体做成了一个tree,所以再最优化F(l,t|I)的时候也已利用动态规划来找,整个的时间复杂度是Articulated Pose Estimation by a Graphical Model with Image Dependent Pairwise Relations,T是11,K是关节点的数量,L是图像的总的像素数量,肯定是要在一张图上进行滑动搜索的,这个时间复杂度的计算T的平方的选取是一种简化操作,假设所有的pairwise有相同的类型数量

首先滑动一张图片,然后将滑动出来的patch送入网络,获得最大概率的那个部位分类和对应的图像对关系,然后进行推理即可

2、实验

CNN网络很简单

Articulated Pose Estimation by a Graphical Model with Image Dependent Pairwise Relations

Articulated Pose Estimation by a Graphical Model with Image Dependent Pairwise Relations

作者的这个实验很重要,他会做一个只有unary的这样一个实验,还有把pair的这种关系变成统计的常量来处理的情形,很明显结果都是不理想的。