姿态估计1-04:HR-Net(人体姿态估算)-白话给你讲论文-翻译无死角(2)

以下链接是个人关于HR-Net(人体姿态估算) 所有见解,如有错误欢迎大家指出,我会第一时间纠正。有兴趣的朋友可以加微信:a944284742相互讨论技术。若是帮助到了你什么,一定要记得点赞!因为这是对我最大的鼓励。
姿态估计1-00:HR-Net(人体姿态估算)-目录-史上最新无死角讲解
本论文名为:
Deep High-Resolution Representation Learning for Human Pose Estimation (CVPR 2019)
话不多说,本人接着上篇博客继续翻译。

4. Experiments

4.1. COCO Keypoint Detection

Dataset: COCO数据集包含了200000张图像,其中包含了250000个标注了人体关键的实例。模型的训练使用的是 COCO train2017 数据集,其中包含了 57K 图片,以及 150K person 实例。在 val2017 以及 test-dev2017 数据集上对我们的模型进行了评估,其分别包含了 5K, 20K图像。

Evaluation metric: 标准的量化评估是基于 Object Keypoint Similarity (OKS):计算公式如下:
OKS=iexp(di2/2s2ki2)δ(vi>0)iδ(vi>0)OKS=\frac{\sum_iexp(-d_i^2/2s^2k_i^2)δ(v_i>0)}{\sum_iδ(v_i>0)}

这里的did_i 是 predict keypoint 和 ground truth 的欧式距离,viv_i 是表示 ground truth 是否可见的标志。ss 是目标缩放的比例,kik_i是一个控制衰减的每个关键点常数.我们报告了实验结果的平均精度和召回率:AP at OKS =0.50)AP75、AP(10位AP得分平均值,OKS = 0.50, 0.55,…,0.90,0.95;APM表示中型对象,APL表示大型对象,而AR表示OKS =0.50, 0.55,…,0.90,0.955。

Training: 我们将人体检测盒的高度或宽度扩展到固定的长宽比:高度:宽度= 4:3,然后从图像中裁剪box,然后固定到尺寸256×192或者384×288。数据增加包括随机旋转([[45◦,45◦]),随机缩放([0.65, 1.35]), 和翻转。以及半体数据的增加也被涉及。
我们使用了 Adam 优化器,基础学习率设置为1e-3,在迭代170个 epochs 以及 200 个 epoch 进行10倍的学习率衰减。训练过程在210个epochs 内结束

Testing: 使用2个阶段的方式 - 使用person检测器检测person实例,然后预测检测关键点。对于验证集和测试开发集,我们使SimpleBaseline2提供的person检测器。
使用普遍的方式,我们计算了原图,和水平反转图估算出来 heatmap 的平均值。每个关键点的位置,都是通过调整最高热值来进行判断的。

**Results on the validation set: ** 我们报告了我们的方法,以及目前最先进方法的对比结果,如下图:
姿态估计1-04:HR-Net(人体姿态估算)-白话给你讲论文-翻译无死角(2)
我们测试的小网络 HRNet-W32,是基于输入图像为256x192进行训练的,其达到了73.4 A 的分值,超过了其他所有使用相同大小当作输入的算法,…

阅读到这里之后,基本都是一些实验对比的结果了,有兴趣的朋友直接阅读论文把,因为没有太多特别的地方了/