不同于单个图片，我们需要得到的是数据在时间上的相关性，所以作者提到了3D CNN，3D CNNs可以在时间和空间上通过三维的卷积核filter对多帧进行卷积，从而抓取特征
但是3D CNNs不能直接适用于mocap数据，因为不同于图片，mocap数据记录的是人类骨骼关节而具有了特殊性，比如相同肢体的关节一直相关，而不同肢体的关节可能相关性很低，因此需要将所有的关节结点被卷积核filter所包含

LSTM

CVPR 2017 Deep representation learning for human motion prediction and classification 论文解读

Long Short-Term Memory networks具有记忆的功能，通过memory cell记忆之前的状态
但是LSTM适用于周期性的人物运动，比如走路游泳等，但对于非周期性的运动类型表现不好

Methodology（实现方法）

作者提出了一种框架，encoding-decoding框架，和两种具体的模型Time-scale encoding和Hierarchy encoding，相较于LSTM周期性的结构，作者直接将前几帧的数据作为输入，经由encoder和decoder，输出后几帧的预测值。

Temporal encoder

作者提出的框架是Autoencoder的变体。Autoencoder是通过将高纬数据投影到低维并通过投影预测数据，通过计算真实值和预测值的误差来不断学习更新模型。

CVPR 2017 Deep representation learning for human motion prediction and classification 论文解读，其中g(x)为encoder，f(x)为decoder。

而作者的encoding-decoding框架则是在时间上做了拓展，输入将x替换为了t时刻之前 CVPR 2017 Deep representation learning for human motion prediction and classification 论文解读的mocap数据。

CVPR 2017 Deep representation learning for human motion prediction and classification 论文解读

如图中（a）所示，将输入encode至低维再decode回原本的维度，因为相互对称，作者称之为symmetric structure。

Network Structure（模型结构）

基于图中（a）symmetric structure，作者针对人体运动预测对其进行了改进，提出了两种适用于人体运动预测的具体模型。

Time-scale encoding

之前在3D CNNs中提到，卷积核filter需要将所有关节结点 CVPR 2017 Deep representation learning for human motion prediction and classification 论文解读纳入范围，不能只将一部分纳入。所以作者提出针对时间的卷积，卷积核filter的大小是，3代表3D空间的坐标，是所有关节结点，是给定的帧数量。经过卷积后的结果将作为输入，进入全连接encoder-decoder处理。如图中（b）所示，和之前symmetric structure相比，相当于在输入前添加了在时间方向上的卷积层。

Hierarchy encoding

同样的，想达成目的：卷积核filter需要将所有关节结点 CVPR 2017 Deep representation learning for human motion prediction and classification 论文解读纳入范围，作者提出可以通过树形结构将所有关节结点相互关联作为一个整体作为全连接encoder-decoder的输入。如图中（c）所示，第一层的输入有个输入，是所有的关节结点数据，然后在第二层将其关联的肢体作为父结点连接起来，从而形成树形结构，相互的关联性能通过树形结构很好的展示，充分地解决了之前3D CNNs中提到的问题。

Experiments（实验）

Experiments detail（实验细节）

在CMU mocap数据库中选取1035组数据进行训练，采集率都为60HZ
实验选取的为100帧，大约为1660ms
在每个模型最后的输出层添加了2层的全链接层网络和1层softmax用于分类运动类型
作者做了运动类型分类的实验，针对特定运动类型的预测实验，非特定运动类型的预测实验，以及在部分数据丢失的情况下的预测实验

Experiments results（实验结论）

CVPR 2017 Deep representation learning for human motion prediction and classification 论文解读

在低维度空间下，即encode之后，在人物姿势上相似的数据点将会彼此相近，而运动序列将会形成轨迹，如图中（b）所示
Temporal Encoding相比于autoencoder能够获取更多的相关信息
低维度层包含了关于运动数据的重要信息

CVPR 2017 Deep representation learning for human motion prediction and classification 论文解读

运动类型分类实验结果：Table 1
特定运动类型的预测实验结果：Table 2
非特定运动类型的预测实验结果：Table 3
数据丢失情况下的预测实验结果：Table 4

Summary（总结）

作者基于autoencoder在时间上做了拓展，提出temporal encoder作为之后提出的两种模型的核心。而这种结构的优势在于在encoder之后生成的low-dimensional representation可以直接用于对运动类型的分类。相比于recurrent network，计算量小，并且在对运动进行预测时不限制于运动的类型。
基于symmetric structure，作者提供了两种思路用于人体运动预测。第一种time-scale encoding，核心思想是在时间方向上的卷积，filter将涵盖所有关节结点。第二种hierarchy encoding，核心思想是利用人体肢体相互连接的特点，将mocap数据以树形结构相互连接，最后将根结点作为temporal encoder的输入。
两种具体模型的优势在于解决了3D CNNs中提到的问题，并且可以学习到肢体关节之间的相关性，即使缺失一部分数据也能有较好的准确率。

CVPR 2017 Deep representation learning for human motion prediction and classification 论文解读

Background （论文背景）

3D CNN

LSTM

Methodology（实现方法）

Temporal encoder

Network Structure（模型结构）

Time-scale encoding

Hierarchy encoding

Experiments（实验）

Experiments detail（实验细节）

Experiments results（实验结论）

Summary（总结）

相关推荐