【论文阅读笔记】How Robust is 3D Human Pose Estimation to Occlusion?
论文地址:https://arxiv.org/abs/1808.09316
论文总结
本文主要在生成遮挡策略的方向上进行实验,得到实验结果和对比。但由于当时的精度不是特别高,所以其中的一些结论现如今不一定完全适用。
实验了几种策略,单个矩形框、多个矩形框、多个条状、多个圆形、VOC对象嵌入等方式,如下图所示。
论文的结论是,VOC的嵌入式遮挡策略,对于多重遮挡情况的泛化能力较好。
论文介绍
本文自己实现了一个全卷积网络,预测3D的heatmap,目标是图片空间的x,y以及相对根节点的z。遮挡的策略,是在单张RGB图像上进行的。单张RGB图像也就是网络的输入。在该网络上,使用遮挡数据增强训练的结果,不仅对受遮挡对象的鲁棒性增强了,也对没有遮挡的对象有所提升。作者认为这是由于遮挡所带来的的正则化的表现结果。
文中使用L1损失训练3D的网络。
实验设置
由于网络是单张图片输入的,所以需要进行去取冗余的操作:视频序列中,只有与上一个持有帧距离30mm以上的才会加入训练集;
输入图片需要将人物居中,放大到
256
∗
256
256*256
256∗256。将人体边界框较长的部分缩放到图片长度的80%。
进行遮挡的数据增强,使用黑色块或者从VoC 2012中提取分割对象进行遮挡数据的生成。遮挡程度在
0
%
∼
70
%
0\%\sim70\%
0%∼70%之间。训练的VoC对象和测试的VoC对象进行严格的分离,使用的random erasing为RE-0 variant。遮挡的策略都是单独进行的,用以进行对比,遮挡的概率为50%。
骨干网络为ResNet-50v1,使用Adam优化器,mini-batch为64,训练40个epoch。
实验结果
进行对比的论文是《Coarse-to-fine volumetric prediction for single-image 3d human pose》,其MPJPE为64.8。本文自己实现的网络MPJPE为63.3。
各遮挡数据增强实验的结果如下:
结论如下:
- 测试时,圆形遮挡导致的误差最大,原因不明
- 测试时,其余的遮挡策略中,矩阵是问题最小的遮挡方式;
- 训练时,单个矩形数据增强的情况,只能适用于单个或多个矩形的遮挡,对其他的遮挡类型泛化不行,尤其是圆形表现的最糟糕;
- 训练时,多个矩形数据增强的情况,比单个矩形数据增强的情况要好一些,但也难以泛化;
- 训练时,圆形遮挡数据增强的情况,可以泛化到简单的几何遮挡,但对相对真实的VoC对象遮挡没有帮助;
- 训练时,VoC对象数据增强的情况,可以泛化到简单的几何遮挡和其他的VoC对象(训练的VoC对象和测试的VoC对象是严格分开的)