人体姿态识别~Alphapose论文笔记~《RMPE: Regional Multi-Person Pose Estimation》
论文:https://arxiv.org/abs/1612.00137
官方代码:https://github.com/MVIG-SJTU/AlphaPose
上海交大的AlphaPose介绍:http://mvig.sjtu.edu.cn/research/alphapose.html
总结
该论文指出,定位和识别中不可避免的会出现错误,这些错误会引起单人姿态估计(single-person pose estimator,SPPE)的错误,特别是完全依赖人体检测的姿态估计算法。因而该论文提出了区域姿态估计(Regional Multi-Person Pose Estimation,RMPE)框架。主要包括:
1、symmetric spatial transformer network (SSTN) 对称空间变换网络:在不准确的bounding box中提取单人区域
2、Parametric Pose Non- Maximum-Suppression (NMS) 参数化姿态非最大抑制:解决冗余
3、Pose-Guided Proposals Generator (PGPG)。 姿态引导区域框生成器:增强训练数据
并且使用symmetric spatial transformer network (SSTN)、deep proposals generator (DPG) 、parametric pose nonmaximum suppression (p-NMS) 三个技术来解决野外场景下多人姿态估计问题。
1.Introduction
多人姿态估计有两个主流方案:Two-step framework & Part-based framework。第一种方案是检测环境中的每一个人体检测框,然后独立地去检测每一个人体区域的姿态(自顶向下的方法)。第二种方案是首先检测出环境中的所有肢体节点,然后进行拼接得到多人的骨架(自底向上的方法)。第一种方案,姿态检测准确度高度以来目标区域框检测的质量。第二种方案,如果两人离得十分近,容易出现模棱两可的情况,而且由于是依赖两个部件之间的关系,所以失去了对全局的信息获取。
论文采用自顶向下方法。我们的目标是检测出正确的人体姿态即使在第一步中检测到的是不精准的区域框。为了说明之前的算法存在这些问题,我们使用Faster-RCNN和SPPE Stacked Hourglass进行实验,主要的问题是位置识别错误和识别冗余,如图1和图2所示。事实上,SPPE对于区域框错误是非常脆弱的,如下图所示。红框为真实框,黄框为检测到的框(IoU>0.5)。由于定位错误,黄框得到的热图无法检测到关节点。
冗余的区域框会产生冗余的姿态。冗余:两个bounding box框住同一个人,会检测两遍,形成两个骨架
因此,提出了RMPE(区域多人姿态检测)框架,提升SPPE-based性能。在SPPE结构上添加SSTN,能够在不精准的区域框中提取到高质量的人体区域。并行的SPPE分支(SSTN)来优化自身网络。使用parametric pose NMS来解决冗余检测问题,在该结构中,使用了自创的姿态距离度量方案比较姿态之间的相似度。用数据驱动的方法优化姿态距离参数。最后我们使用PGPG来强化训练数据,通过学习输出结果中不同姿态的描述信息,来模仿人体区域框的生成过程,进一步产生一个更大的训练集。
我们的RMPE框架是通用的,适用于不同的人体探测器和单人姿势估计器。将RMPE框架应用于MPII(多人)数据集,达到state-of-the-art效果76.7 mAP。我们还进行了切除研究,以验证我们框架中每个组件的有效性。
2 Related Work
2.1 Single Person Pose Estimation
在单人姿态估计中,姿势估计问题被简化为仅尝试去估计单人的姿势(人被认为主导了图像内容)。传统的方法考虑图像结构模型。例如:树模型和随机森林模型是非常有效的人体姿态估计模型。基于图的模型,如随机场模型和依赖图模型,也得到了广泛的研究。
近年来,深度学习已成为一种很有前途的目标/人脸识别技术,人体姿态估计也不例外。代表作包括DeepPose、基于DNN的模型和各种基于CNN的模型。除了简单的估计人体姿态,一些研究同时进行人的分析和姿势估计。对于单人姿态估计,只有在正确定位人体位置的情况下,这些方法才能取得良好的效果。然而,这一假设并不总是令人满意。
2.2. Multi Person Pose Estimation