CVPR 2017 Deep representation learning for human motion prediction and classification 论文解读
论文: Deep representation learning for human motion prediction and classification
论文地址: https://arxiv.org/abs/1702.07486
通过对mocap数据的学习,基于三种不同的 temporal encoder structures, 实现对于人物运动的后几帧预测
Table of Contents(目录)
Background (论文背景)
作者在论文开头针对人体运动预测问题,在现阶段使用的技术进行了概述以及分析了它们的优缺点:
3D CNN
- 不同于单个图片,我们需要得到的是数据在时间上的相关性,所以作者提到了3D CNN,3D CNNs可以在时间和空间上通过三维的卷积核filter对多帧进行卷积,从而抓取特征
- 但是3D CNNs不能直接适用于mocap数据,因为不同于图片,mocap数据记录的是人类骨骼关节而具有了特殊性,比如相同肢体的关节一直相关,而不同肢体的关节可能相关性很低,因此需要将所有的关节结点被卷积核filter所包含
LSTM
- Long Short-Term Memory networks具有记忆的功能,通过memory cell记忆之前的状态
- 但是LSTM适用于周期性的人物运动,比如走路游泳等,但对于非周期性的运动类型表现不好
Methodology(实现方法)
作者提出了一种框架,encoding-decoding框架,和两种具体的模型Time-scale encoding和Hierarchy encoding,相较于LSTM周期性的结构,作者直接将前几帧的数据作为输入,经由encoder和decoder,输出后几帧的预测值。
Temporal encoder
作者提出的框架是Autoencoder的变体。Autoencoder是通过将高纬数据投影到低维并通过投影预测数据,通过计算真实值和预测值的误差来不断学习更新模型。
,其中g(x)为encoder,f(x)为decoder。
而作者的encoding-decoding框架则是在时间上做了拓展,输入将x替换为了t时刻之前的mocap数据。
如图中(a)所示,将输入encode至低维再decode回原本的维度,因为相互对称,作者称之为symmetric structure。
Network Structure(模型结构)
基于图中(a)symmetric structure,作者针对人体运动预测对其进行了改进,提出了两种适用于人体运动预测的具体模型。
Time-scale encoding
之前在3D CNNs中提到,卷积核filter需要将所有关节结点纳入范围,不能只将一部分纳入。所以作者提出针对时间的卷积,卷积核filter的大小是
,3代表3D空间的坐标,
是所有关节结点,
是给定的帧数量。经过卷积后的结果将作为输入,进入全连接encoder-decoder处理。如图中(b)所示,和之前symmetric structure相比,相当于在输入前添加了在时间方向上的卷积层。
Hierarchy encoding
同样的,想达成目的:卷积核filter需要将所有关节结点纳入范围,作者提出可以通过树形结构将所有关节结点
相互关联作为一个整体作为全连接encoder-decoder的输入。如图中(c)所示,第一层的输入有
个输入,是所有的关节结点数据,然后在第二层将其关联的肢体作为父结点连接起来,从而形成树形结构,相互的关联性能通过树形结构很好的展示,充分地解决了之前3D CNNs中提到的问题。
Experiments(实验)
Experiments detail(实验细节)
- 在CMU mocap数据库中选取1035组数据进行训练,采集率都为60HZ
- 实验选取的
为100帧,大约为1660ms
- 在每个模型最后的输出层添加了2层的全链接层网络和1层softmax用于分类运动类型
- 作者做了运动类型分类的实验,针对特定运动类型的预测实验,非特定运动类型的预测实验,以及在部分数据丢失的情况下的预测实验
Experiments results(实验结论)
- 在低维度空间下,即encode之后,在人物姿势上相似的数据点将会彼此相近,而运动序列将会形成轨迹,如图中(b)所示
- Temporal Encoding相比于autoencoder能够获取更多的相关信息
- 低维度层包含了关于运动数据的重要信息
- 运动类型分类实验结果:Table 1
- 特定运动类型的预测实验结果:Table 2
- 非特定运动类型的预测实验结果:Table 3
- 数据丢失情况下的预测实验结果:Table 4
Summary(总结)
- 作者基于autoencoder在时间上做了拓展,提出temporal encoder作为之后提出的两种模型的核心。而这种结构的优势在于在encoder之后生成的low-dimensional representation可以直接用于对运动类型的分类。相比于recurrent network,计算量小,并且在对运动进行预测时不限制于运动的类型。
- 基于symmetric structure,作者提供了两种思路用于人体运动预测。第一种time-scale encoding,核心思想是在时间方向上的卷积,filter将涵盖所有关节结点。第二种hierarchy encoding,核心思想是利用人体肢体相互连接的特点,将mocap数据以树形结构相互连接,最后将根结点作为temporal encoder的输入。
- 两种具体模型的优势在于解决了3D CNNs中提到的问题,并且可以学习到肢体关节之间的相关性,即使缺失一部分数据也能有较好的准确率。