HigherHRNet简介
HigherHRNet: Scale-Aware Representation Learningfor Bottom-Up Human Pose Estimation
HigherHRNet: 自下而上姿态估计中的多尺度表征学习
论文地址:https://arxiv.org/pdf/1908.10357.pdf
2D 人体姿态估计是计算机视觉领域的基本研究方向之一,多人 2D 姿态估计(Multi-Person Pose Estimation)是该方向上的一个经典难题。自下而上的框架在速度上有优势,但是由于卷积神经网络对于尺度不敏感,而图片中人的多尺度的难题导致目前的结果和自上而下框架还有一定差距。为此,在我们在 CVPR 2019 和 TPAMI 发表的HRNet[1,2](https://github.com/HRNet)工作的基础上,提出了 HigherHRNet 来解决自下而上方法中的多尺度难题。
图1:HigherHRNet 框架图
目前主流的自下而上检测关键点的热度图(heatmap)分辨率使用1/4 ,我们发现这个分辨率用于做关键点的精确度还是不够高。为解决此问题,我们在 HRNet 的基础上通过 transposed convolution 得到更高分辨率的特征。
为了解决多尺度问题,我们进一步设计了一个高分辨率特征金字塔。传统的特征金字塔一般从一个很小的分辨率(比如1/32)开始,通过一系列上采样操作得到1/4 分辨率的特征。我们提出的高分辨率特征金字塔则是从1/4 分辨率出发,通过 transposed convolution 得到更高分辨率的特征。在训练的过程中,我们使用多分辨率监督让不同层的特征能学习不同尺度的信息。我们也利用多分辨率融合,把不同分辨率的热度图统一放大到原图大小并且融合到一起,从而得到一个对尺度敏感的特征。
transposed convolution(反卷积),顾名思义是卷积操作的逆向操作。卷积,输入图片,输出图片的特征,理论依据是统计不变性中的平移不变性(translation invariance),起到降维的作用。反卷积,输入图片的特征,输出图片,起到还原的作用。在HigherHRNet中反卷积的主要目的是生成更更高分辨率的特征来提高准度。
在 COCO test-dev 上,HigherHRNet 取得了自下而上的最佳结果,达到了 70.5%AP。尤其在小尺度的人体姿态估计上,HigherHRNet 比之前的方法高出了 2.5%AP。为了测试 HigherHRNet 对于拥挤(crowd)场景的鲁棒性,我们在 CrowdPose 上也进行了实验,并且取得了 67.6%AP 的结果,超越了之前所有的方法。
HigherHRNet也是我最近一直在学习的方法,正在用它对自己的数据进行训练,虽然没法像往常一样在实验做实验,但是在家远程做实验,也没感觉太大的差别,等实验结果差不多了我再和大家分享。在这里和大家介绍一下租用GPU做实验的方法,我们是在智星云租用的GPU,使用体验很好,具体大家可以参考:智星云官网: http://www.ai-galaxy.cn/,淘宝店:https://shop36573300.taobao.com/公众号: 智星AI,
参考资料: