学习总结《HOPE-Net: A Graph-based Model for Hand-Object Pose Estimation》
《HOPE-Net: A Graph-based Model for Hand-Object Pose Estimation》
本文提出了轻量HOPE-Net模型,用于在真实2D或3D情况下进行 手-物体姿态识别。
效果图如下:
HOPE-Net采用了两个自适应级联的图卷积网络,一个在2D坐标下去估计手部关节点和物体,另一个图卷积网络将2D坐标转换为3D坐标。
本文提出的网络在2D和3D的姿态识别方面的精确度都有提高。
本文提出的基于图卷积将2D转换到3D已经应用到了很多3D空间下的检测问题上,在该问题中可以先预测2D关节点,然后将2D关节点转换到3D坐标下。
为什么要先进行2D估计在进行3D估计?
因为基于目标检测的模型在2D的手关节点检测中表现更好,而在3D空间下,由于非线性程度高,输出空间大,所以基于回归的模型比较流行。
本文的贡献:
1. 提出了一个轻巧的深度学习框架HOPE-Net,可以实时在2D和3D坐标下预测手和手操纵的物体。该模型能够精准的从单帧RGB图像预测手和物体的姿态。
2. 我们介绍了自适应图U-Net, 他是一个基于图卷积的神经网络通过新颖的图卷积,池化和上采样层将手和物体姿态从2D转换到3D。这些层新的形式使得它相比于已有的图U-Net模型相比更加的稳定和健壮。
3. 通过大量的实验,我们验证了我们的方法在实时运动场景下的手和物体3D姿态估计任务上超越现在最先进的模型。
不能讲手姿态和物体姿态分开预测的原因:当手对一个物体进行某种操作时,手的姿态极大地限制着物体的姿态。所以,手的姿态和物体的姿态之间存在着非常强的关系。
本篇文章的两个研究思路: 级联的手-物体姿态预测模型 和 基于图数据的图卷积网络。
前人做在手-物体姿态估计方面过的研究:
Oikonomidis将 手-物体 交互作为上下文,从而更好的估计多视图图像中的二维手姿态。
Choi 训练了两个网络,一个以物体为中心,另一个以手为中心,以此来抓取物体和手之间的个性信息。在这两个网络中共享信息,以学习更好的表示预测三维手部姿势。
本文提出了一个新的U-Net图结构,它具有不同的图卷积,池化和上采样。我们使用一个自适应的邻接矩阵作为我们的图卷积层和新的可训练的池化层和上采样层。
HOPE-Net网络结构图如下: