综述

3D人体动作识别的现代深度模型的鉴别力越来越强。随着最近3D人体骨骼动作再现技术的复兴，3D人体骨骼动作再现技术的质量和发展速度都有了长足的进步。然而，基于最先进的学习方法的内部工作原理在三维人体动作识别中仍然主要是黑盒子。在这项工作中，我们提出使用一种新的模型称为时间卷积神经网络(TCN)用于三维人体动作识别。与目前流行的基于lstm的递归神经网络模型相比，TCN为我们提供了一种明确学习易于解释的三维人体动作识别时空表示的方法。我们提供了重新设计TCN的策略，考虑到模型的可解释性，以及如何利用模型的这些特性来构建一个强大的三维活动识别方法。通过这项工作，我们希望采取一个更容易理解、表达和解释的时空模型。最终得到的模型Res-TCN在最大的三维人体动作识别数据集NTU-RGBD上获得了最先进的结果。

时间卷积神经网络概述

在本节中，我们将简要概述原始论文中提供的TCN结构。注意，原来的TCN是为视频中的时间动作分割而设计的，它遵循卷积编解码器的设计。我们调整了网络的编码器部分来进行动作识别。TCN在识别和分段任务方面的特性与现代空间卷积神经网络(CNN)相同。该网络由一维卷积叠加单元和非线性**函数构成。一维卷积是跨时域的。

原始TCN的输入是一系列视频特性。每个视频帧提取一个d维特征向量，无论是空间CNN的深度特征，如**AlexNet的fc7，还是一组运动学特征。对于一个T帧的视频，输入X只是所有帧上特征的一个连接，比如 Interpretable 3D Human Action Analysis with Temporal Convolutional Networks 。与著名的CNN模型一样，重复的卷积块和随后的非线性**从输入中提取特征。更准确地说，在TCN中，时间窗为dl的第l个卷积层由Nl个过滤器组成，其中每个过滤器是。给定前一层的输出 Interpretable 3D Human Action Analysis with Temporal Convolutional Networks ，即第l层的输出，Xl就是

Interpretable 3D Human Action Analysis with Temporal Convolutional Networks

其中f是一个非线性的**函数，如ReLU。整个网络通过反向传播进行训练。为了进一步提高TCN的可解释性，我们采用了[11]的剩余连接。在接下来的部分中，我们将讨论这种跳跃连接以及由此产生的TCN体系结构(即Res-TCN)是如何改进3D人类动作识别模型的可解释性的。

TCNs的残差连接的可解释性

在我们的工作中，为了实现三维人类活动的识别，模型的X0输入是一个帧方向的骨架特征，并在整个视频序列中进行时间级联。TCNs可解释性的一个重要前提是，框架特征的每个维度都必须是可解释性的。设xt为从其中 Interpretable 3D Human Action Analysis with Temporal Convolutional Networks 的视频帧t中提取的骨架特征。通过构建骨骼特征，对特征的第d维进行解释，并与之关联(如右肘关节的Z位置)。特性构建的细节将在实验部分中讨论。

带有残差单位和标识映射的TCN

当前解释时空模型的最大障碍在于所学习的模型参数与其隐藏的表示之间缺乏清晰的联系。然而，对于TCNs来说，其模型参数的隐藏表示形式很容易理解:**映射的计算是通过对一个可学习的时间滤波器进行时间卷积，并将输出通过ReLU单元传递。在ReLU网络中，经过前后通的迭代，网络参数得到优化，使得滤波器在输入特征区域的卷积更有可能在下一个迭代中产生正值。我们可以利用模型的这种行为，通过重新构造具有剩余连接的TCN来提高模型的可解释性。正如在[11]中介绍的，使用标识映射的跳跃连接为网络收敛引入了一些有益的特性，即使对于非常深的网络也是如此。我们观察到，CNNs的这种设计提高了模型的可解释性，以及具有语义的给定输入。我们的Res-TCN模型体系结构如图1所示。

Interpretable 3D Human Action Analysis with Temporal Convolutional Networks

在[10]中引入的Res-TCN栈的构建块称为残差单元，它适应了[11]的预**方案。第 Interpretable 3D Human Action Analysis with Temporal Convolutional Networks 层的每个单元进行如下计算:

Interpretable 3D Human Action Analysis with Temporal Convolutional Networks

F为残差单元。对于第 Interpretable 3D Human Action Analysis with Temporal Convolutional Networks 层,表示输入,是可学的参数集,σ是ReLU**函数。我们可以重写表达式为，当σ为ReLU时。在我们的架构中唯一的例外是第一个卷积层。ResTCN中的第一个卷积层对原始骨架输入进行操作，生成的**映射 Interpretable 3D Human Action Analysis with Temporal Convolutional Networks 将传递给后续的层。给定一个含有N个剩余单元的Res-TCN, N个剩余单元后的隐藏表示为:

Interpretable 3D Human Action Analysis with Temporal Convolutional Networks

注意， Interpretable 3D Human Action Analysis with Temporal Convolutional Networks 是在=1层对一组滤波器进行卷积的结果，没有进行任何非线性**。考虑到的每个维度也是可直接解释的，比如是一组骨架特性时，中的过滤器集和生成的**映射是可直接解释的。在我们的设计中，一个重要的发现是，在 Interpretable 3D Human Action Analysis with Temporal Convolutional Networks ≥2的第个残差单元中，在中使用滤波器卷积之前，先对执行ReLU。换句话说，梯度只流过的正区域，学会了在的地方选择判别模式。然后计算被添加到输入中，并传递到下一层。第一个剩余单元的输入是 Interpretable 3D Human Action Analysis with Temporal Convolutional Networks , Res-TCN中的所有后续剩余单元都是的加法或减法，如公式4所示。在这个公式中，我们强迫网络学习公共语言中有区别的时空特征。在实验部分，我们可视化了深层活动的隐藏代表，并展示了它与 Interpretable 3D Human Action Analysis with Temporal Convolutional Networks 的联系，以验证我们的分析。

仔细研究模型参数

在Res-TCN体系结构中，公式4表明，整个模型的表示能力在很大程度上依赖于通过 Interpretable 3D Human Action Analysis with Temporal Convolutional Networks 中的滤波器产生有区别的。在本节中，我们将分析中的每个过滤器代表什么。

考虑一个一维卷积滤波器 Interpretable 3D Human Action Analysis with Temporal Convolutional Networks 来自。计算上的一维卷积，其步长定义为s，滤波器长度为。每个过滤器(如)在所有特征维数上同时查看时间步长。滤波器的一个重要特性是，每个维有一个可以解释的含义。例如，骨架特征 Interpretable 3D Human Action Analysis with Temporal Convolutional Networks 的第d维描述了一个空间配置(欧几里得X、Y或Z坐标。深度传感器)t时刻某一特定关节的深度传感器。例如，图2中左边所示的过滤器除了对应于[26]中定义的关节编号11和25的索引外，其他关节位置的参数都接近于零。我们可以进一步解释这个过滤器:过滤器直接编码关节如何在时间中移动。在一个由 Interpretable 3D Human Action Analysis with Temporal Convolutional Networks 定义的时间窗口中，与关节指数11和25相关的滤波权重急剧增加，接近峰值，然后又回到开始时的大小。我们知道，为了使这个特殊的滤波器产生一个高的正卷积分数，在相应的维数上输入 Interpretable 3D Human Action Analysis with Temporal Convolutional Networks 必须显示出与滤波器高度相关的序列结构。然后，我们就可以清楚地解释这个过滤器在寻找什么:“右手关节的快速抖动运动”。类似地，考虑图2中右边的过滤器。根据设计，参数的下半部分对应于第二个actor。按照上面描述的相同逻辑，我们可以清楚地理解，当输入两个行动者相互翻译时，这个过滤器会产生很高的正卷积分数。在下一节中，我们将讨论更深层次的参数可解释性。

深入研究模型参数

现在让我们将分析扩展到模型的更深层。在Res-TCN公式中，更深的层被分解成残差单元，残差单元的输出通过添加到残差单元的输入被简单地合并。例如，考虑两个卷积层后的隐藏表示:

Interpretable 3D Human Action Analysis with Temporal Convolutional Networks

这里 Interpretable 3D Human Action Analysis with Temporal Convolutional Networks 。中的过滤器对生成的输出的正区域进行卷积，这样对于某些的，其中定义了层中的过滤器长度，是层中的过滤器数量，也是一样。根据公式6，我们观察到作为一个门，它调节了多少信息将被转换并添加到 Interpretable 3D Human Action Analysis with Temporal Convolutional Networks 上。给定一个滤波器，在的第d维中有一个较大的权值，表明这个特定的滤波器在相同维数()处对输入信号的加权版本进行加或减。重量小的尺寸对剩余单元的最终输出影响较小。考虑图3所示的更深卷积层的过滤器。除某些维度外，大多数参数都接近于零。考虑到残差单元的可加性，我们可以直接将这些维度映射到底层的过滤器。如果 Interpretable 3D Human Action Analysis with Temporal Convolutional Networks 的k维具有高权重大小，那么允许将从计算得到的更多信息添加到输出中。我们可以递归地跟踪这些有影响力的过滤器，一直到第一个卷积层，在这个卷积层中，我们可以像上一节所示，直接映射过滤器参数来解释骨骼运动。