ECCV2020-Peeking into occluded joints: A novel framework for crowd pose estimation论文阅读
作者: Lingteng Qiu, Xuanye Zhang, Yanran Li, Guanbin Li, Xiaojun Wu, Zixiang Xiong, Xiaoguang Han, Shuguang Cui
单位 : 香港中文大学;深圳市大数据研究院;哈尔滨工业大学;
论文地址
代码(待公布)
主页
遮挡对姿态估计性能影响很大,现有基于热图进行姿态估计的方法是直接定位关节点,但不可见关节点无法直接定位,因此估计性能较差。本文提出一个综合考虑了图像内容和姿态结构信息的图像引导渐进GCN模块,来从推断的角度估计不可见关节点,并提出了一种新的OPEC-Net框架和一个具有9k张注释图像的新遮挡姿态数据集(OCPose),该数据集从平均IoU方面,是目前公开最复杂的遮挡数据集。
一、针对问题
针对拥挤人群中有人体遮挡的情况,基于热图估计人体姿态时,直接定位不可见关节点不可行,作者认为不可见关节点与图像内容及人体姿态结构信息密切相关,因此采用综合推断的方法更靠谱。
二、主要工作
1. OPEC-Net
(1)姿态初始化
用于获取可见关节点的姿态估计热图,包含关节点的坐标和置信度信息,主要用AlphaPose+实现,对于OCPose, CrowdPose and OCHuman, 采用ResNet-101 as backbone,Yolo V3 as detector。对于MSCOCO,Mask RCNN as detector, ResNet-152 as backbone。
(2)基于GCN的关节点矫正
提出一个图像导向的图网络,基于关节点的隐含关系来调节初始姿态的最终估计结果。
1)热图与坐标的转换
为了实现端到端的训练,需保证热图转换为坐标的过程可微分,而传统由热图获取坐标的方法是将热图的最大概率值对应点坐标作为该关节点的坐标,该方法利用argmax实现,一是不可微的,无法实现端到端训练,二由于热图尺寸比原图一般有缩小,会引起量化误差。因此采用integeral regression的方法,把“取最大值”的操作改为“取期望值”,即热图中的位置以概率作为权重,然后求积分做为关节点的位置,这样就结合了热图的位置表示以及回归端到端两者的好处。
2)图像引导的渐进GCN网络
该网络创新性地将图像内容和不可见关节点的姿态结构信息融合在一起。我们在基于坐标的模块中设计了一种直观的由粗到细的学习机制,即构建一个渐进的GCN体系结构,并通过渐进地获取多尺度图像特征来稳定性能。采用级联 ResGCN attention blocks,来融合初始姿态和图像特征,该特征是提取的关节点在对应多尺度图像坐标权重特征图上(即CFA模块获取的多尺度特征)的特征。
3)Graph和Couple Graph
G = (V, E)
V = {vi |i = 1, 2, …, N}为顶点集.
E = {vivj | 如果 i 和 j是相连接的 } 为边集,即人体的躯干.
A = {aij}为邻接矩阵, 如果两顶点相邻,则aij = 1,否则 aij = 0
Couple Graph是将单一的人体图扩展为包含更多人类交互信息的图,通过连接相应的关节点来获取人类交互信息而实现,用于放在OPEC-Graph模块的后面来加强估计信息:
G‘ = (V’, E‘)
V’ = {vi |i = 1, 2, …, 2N}
Es = {vivj |如果 i 和 j是相连接的}.
Ec = {vivi+N}, vi 和 vi+N 是两个人体的对应躯干
4)Loss函数
Loss函数综合考虑了初始估计姿态和修正姿态两部分,点乘了mask,采用L1loss。
2. OCPose data
该数据集主要是在搏击、跳舞、摔跤等行为下有人体互相遮挡的数据,包含9000张图像,18000个进行姿态标注的人,其中平均IoU为0.47。
其他数据集:CrowdPose, MSCOCO and OCHuman(为严重遮挡数据)
三、实验
选取了Mask RCNN, AlphaPose+和 SimplePose进行性能比较,进行了基于OCPose数据集的定性和定量实验,在其他数据集上与上述方法的对比实验,可见和不可见关节点数量影响实验,及提出的各个部分影响的ablation实验。