Social-STGCNN: A Social Spatio-Temporal Graph Convolutional Neural Network for Human Trajectory Prediction

文章：采用了较之前轨迹预测方法不同的研究思路，使用图卷积网络代替原有模型的交互汇集机制并引进了核函数，使用TCN代替先前模型的循环递归架构。

2. 相关工作

3. 问题表述

4. 社会-STGCNN模型

4.1 Model Description

4.2 Implementing Social-STGCNN

5 Datasets and Evaluation Metrics

6 Experiments and Results Analysis

6.1 Ablation Study of Kernel Function

6.2 Quantitative Analysis

6.3 Qualitative Analysis

7. Conclusion

摘要：

更好地了解行人行为的机器可以更快地建模诸如自动驾驶汽车和人类之类的特工之间的交互。行人的轨迹不仅受到行人本身的影响，还受到与周围物体的相互作用的影响。以前的方法通过使用各种聚合方法对这些交互进行建模，这些聚合方法整合了不同的学习者行人状态。我们提出了社会时空图卷积神经网络（Social-STGCNN），该模型通过将交互建模为图形来替代聚合方法的需求。我们的结果表明，与以前报道的方法相比，最终位移误差（FDE）相对于现有技术的改进为20％，平均位移误差（ADE）的改进为参数减少了8.5倍，推理速度提高了48倍。此外，我们的模型具有较高的数据效率，仅使用20％的训练数据就超出了ADE指标上的现有技术水平。我们提出了一个核函数，将行人之间的社交互动嵌入邻接矩阵中。通过定性分析，我们表明我们的模型继承了行人轨迹之间可以预期的社会行为。可以在https://github.com/abduallahmohamed/Social-STGCNN 上找到代码。

1. 简介

对于包括自动驾驶和监视系统在内的多种应用，预测行人的轨迹至关重要。在自动驾驶中，行人轨迹的准确预测使控制器能够提前计划车辆在对抗环境中的运动。例如，它是防撞系统或紧急制动系统的关键组件[2，18，16，22]。在监视系统中，预测行人的轨迹对于帮助识别可疑活动至关重要[15、28、20]。

由于行人与环境之间的复杂相互作用，行人的轨迹难以预测。可能影响行人轨迹的物体包括物理障碍物，例如树木或道路，以及运动物体，包括车辆和其他行人。根据[19]，有70％的行人倾向于成群行走。行人之间的互动主要受常识和社会习惯的驱使。行人轨迹预测的复杂性来自不同的社会行为，例如与其他人并行行走，在一个群体内，避免碰撞以及从不同方向合并到特定点。假设行人的目标目的地和预期路径未知，那么复杂性的另一个来源就是运动的随机性。

[译] Social-STGCNN：CVPR2020论文翻译以及解读

图1.使用Social-STGCNN模型预测行人轨迹的概述。行人之间的社交互动及其时间动态由时空图表示。然后，我们对结果图进行Social-STGCNN预测行人的未来轨迹。

行人运动的社会属性鼓励该领域的研究人员专注于发明深层次的方法来模拟行人之间的社会互动。在Social-LSTM [1]的文章中，基于深度学习的模型被应用于通过递归深度模型对每个行人轨迹进行建模来预测行人轨迹。使循环模型的输出通过池化层相互交互。几篇文章[17、14、30]遵循了这个方向。Social-LSTM [1]将行人轨迹建模为双变量高斯分布，而其他一些则旨在预测确定性轨迹。另一个方向是将生成对抗网络（GAN）用于此任务，假设轨迹的分布是多模式的。几篇文章[6，23，13]使用GAN来预测未来轨迹的分布。对于这些模型，使用递归神经网络设计生成器，然后再次依靠聚合方法来提取行人之间的社交互动。我们认为，早期文章的局限性在于递归架构的使用，因为递归架构在训练中参数效率低下且昂贵[3]。我们通过使用时间卷积体系结构克服了这一限制。

除了循环体系结构的局限性之外，早期工作中使用的聚合层也可能会限制其性能。聚合层将循环单元的隐藏状态作为输入。由于每个循环单元都对行人轨迹进行建模，因此有望吸收整个场景。但是，这种聚合存在两个问题。首先，由于很难解释特征状态的物理含义，因此特征状态的聚集既不直观也不直接建模人与人之间的交互。其次，由于聚集机制通常基于启发式技术（例如池），因此它们可能无法正确模拟行人之间的交互。例如，已知池操作在信息中泄漏[26]。为了直接捕捉行人之间的互动并预测行人的未来路径，最近的文章social-BiGAT [10]依靠图形表示来建模社交互动。由于图的拓扑结构是表示场景中行人之间的社交互动的自然方式，因此我们认为，与基于聚集的方法相比，它是一种更直接，直观且有效的建模行人互动的方式。我们还认为，Social-BiGAT没有充分利用图形表示，因为他们仅将其用作循环单位状态的汇总机制。Social-STGCNN可以从图形表示中受益，通过将场景建模为时空图并在其上执行而受益匪浅。

我们设计了Social-STGCNN来克服上述两个限制。首先，我们从一开始就将行人的轨迹建模为时空图以替换聚集层。图表边缘为行人之间的社交互动建模。我们提出了一个加权邻接矩阵，其中核函数定量地测量了行人之间的影响。之后，为了解决与递归单元相关的问题，我们的模型使用图卷积神经网络（GCN）和时间卷积（TCN）对时空图进行处理。这使我们的模型可以一次预测整个序列。由于上述设计，我们的模型在预测精度，参数大小，推理速度和数据效率方面都优于以前的模型。

2. 相关工作

最近对自动驾驶的兴趣已经导致人们越来越关注行人轨迹预测。最近，新的深度模型在此任务上取得了可喜的进展。在本节中，我们将简要回顾相关工作。使用深度模型的人体轨迹预测SocialLSTM [1]是最早关注行人轨迹预测的深度模型之一。Social-LSTM使用递归网络对每个行人的运动进行建模，然后他们使用汇总机制汇总递归的输出并随后预测轨迹。SocialLSTM假设行人轨迹遵循双变量高斯分布，在该模型中我们遵循此假设。后来的工作，如“窥视未来”（NEXT）[14]和状态修正LSTM（SR-LSTM）[30]扩展了[1]的视觉功能和新的合并机制，以提高预测精度。值得注意的是，SR-LSTM [30]通过加权机制权衡了每个行人对其他人的贡献。这类似于Social-BiGAT [10]中的思想，该思想使用注意力机制来权衡代表行人轨迹的循环状态的贡献。基于行人轨迹遵循多模态分布的假设，Social-GAN [6]将Social LSTM [1]扩展到基于递归神经网络（RNN）的生成模型中。Sophie [23]使用CNN从整个场景中提取特征，然后对每个行人使用双向注意机制。稍后，Sophie将注意力输出与可视CNN输出连接起来，然后使用基于长期短期记忆（LSTM）自动编码器的生成模型来生成将来的轨迹。CGNS [13]在架构方面类似于Sophie [23]，但是他们使用门控循环单元（GRU）代替LSTM。我们注意到，以前的大多数工作都是围绕两个想法进行的，使用递归网络对每个行人运动进行建模，并使用汇总机制将递归网络进行组合。最近的工作Social-BiGAT [10]依靠图注意力网络来模拟行人之间的社交互动。LSTM输出将输入到Social-BiGAT中的图表。我们的模型Social-STGCNN和SocialBiGAT之间的主要区别在于，我们从一开始就直接将行人轨迹建模为图形，在此我们为顶点提供有意义的值。

GCN的最新进展[8]介绍了图CNN，它将GCN的概念扩展到图中。在图上定义的卷积运算是目标节点属性与其相邻节点属性的加权聚合。它与CNN相似，但是卷积操作接管图的邻接矩阵。著作[9，4，24]将CNN图扩展到其他应用，例如矩阵完成和变分自动编码器。与我们的工作相关的发展之一是ST-GCNN [27]。ST-GCNN是时空图CNN，其最初旨在解决基于骨架的动作识别问题。即使体系结构本身是为执行分类任务而设计的，我们也会对其进行调整以适合我们的问题。在我们的工作中，ST-GCNN从图中提取空间和时间信息，从而创建合适的嵌入。然后，我们对该嵌入进行操作以预测行人的轨迹。详细信息在第4节中显示。

时间卷积神经网络（TCN）从[3]开始，强调了在顺序数据建模中使用递归神经网络（RNN）与使用时间CNN之间的争论。由[3]介绍的时间卷积神经网络（TCN）将堆积的顺序数据作为输入，并整体预测一个序列。这可以缓解由RNN进行的顺序预测中的错误累积问题。而且，与RNN相比，TCN的大小更小。我们受到TCN的启发，并设计了一个时空CNN模型，该模型扩展了ST-GCNN的功能。有关更多详细信息，请参见模型描述部分4

3. 问题表述

给定场景中一组N个行人及其在一个时间段T0上的对应观察位置 [译] Social-STGCNN：CVPR2020论文翻译以及解读，我们需要预测在未来时间范围Tp上即将出现的轨迹。对于行人n，我们将要预测的相应轨迹写为，其中是描述2d空间中时间t处行人n位置的概率分布的随机变量。我们假设遵循二元高斯分布，例如 [译] Social-STGCNN：CVPR2020论文翻译以及解读。此外，我们将预测轨迹表示为，它遵循估计的双变量分布。我们对模型进行了训练，以最大程度地减少对数可能性的负数，其定义为：

[译] Social-STGCNN：CVPR2020论文翻译以及解读

其中W包括模型的所有可训练参数， [译] Social-STGCNN：CVPR2020论文翻译以及解读是分布的均值，是方差，是相关性。

4. 社会-STGCNN模型

4.1 Model Description

Social-STGCNN模型由两个主要部分组成：时空图卷积神经网络（ST-GCNN）和时间外推器卷积神经网络（TXP-CNN）。ST-GCNN对行人轨迹的图形表示进行时空卷积运算以提取特征。这些特征是观察到的行人轨迹历史的紧凑表示。TXP-CNN将这些功能用作输入，并预测整个行人的未来轨迹。我们使用名称“时间外推器”是因为TXP-CNN有望通过卷积运算来推断未来的轨迹。图2展示了该模型的概述。

行人轨迹的图形表示我们首先介绍行人轨迹的图形表示的构造。我们首先构建一组空间图 [译] Social-STGCNN：CVPR2020论文翻译以及解读，它们表示场景中每个时间步长t上行人的相对位置。定义为，其中是图的一组顶点。观察到的位置是的属性。是图形中的一组边，表示为。如果已连接和，则为，否则为。为了建模两个节点之间相互影响的强度，我们附加了一个值 [译] Social-STGCNN：CVPR2020论文翻译以及解读，该值由某个内核函数为每个计算。被组织到加权邻接矩阵中。我们介绍了作为要在邻接矩阵中使用的内核函数。由等式2定义。我们稍后在6.1节中讨论内核函数的详细信息。

[译] Social-STGCNN：CVPR2020论文翻译以及解读

图卷积神经网络用行人轨迹的图表示，我们介绍了在图上定义的空间卷积运算。对于在2D网格图或特征图上定义的卷积运算，等式3中显示了卷积运算。

[译] Social-STGCNN：CVPR2020论文翻译以及解读

其中k是内核大小， [译] Social-STGCNN：CVPR2020论文翻译以及解读是采样函数，其聚集以z [5]为中心的邻居的信息，而σ是**函数，表示层l。图卷积运算定义为：

[译] Social-STGCNN：CVPR2020论文翻译以及解读

其中 [译] Social-STGCNN：CVPR2020论文翻译以及解读是规范化术语，是顶点的邻居集，而表示连接和的最短路径。请注意，是邻居集的基数。感兴趣的读者可以参考[8，27]以获得更详细的解释和推理。

[译] Social-STGCNN：CVPR2020论文翻译以及解读

图2. Social-STGCNN模型。给定T帧，我们构造表示 [译] Social-STGCNN：CVPR2020论文翻译以及解读的时空图。然后，G通过时空图卷积神经网络（ST-GCNN）转发，从而创建时空嵌入。在此之后，TXP-CNN会预测未来的轨迹。P是行人位置的维数，N是行人的数量，T是时间步数，是来自ST-GCNN的嵌入的维数。

1. 时空图卷积神经网络（ST-GCNN）

ST-GCNN通过定义属性为 [译] Social-STGCNN：CVPR2020论文翻译以及解读的属性集的新图G，将空间图卷积扩展为时空图卷积。G包含行人轨迹的时空信息。值得注意的是G1-GT的拓扑是相同的，而当t变化时，将不同的属性分配给。因此，我们将G定义为，其中和。G中顶点 [译] Social-STGCNN：CVPR2020论文翻译以及解读的属性是的集合。另外，对应于G的加权邻接矩阵A是的集合。我们将ST-GCNN产生的嵌入表示为。

2. 时间扩展器卷积神经网络（TXP-CNN）

ST-GCNN的功能是从输入图中提取时空节点嵌入。但是，我们的目标是预测未来的进一步措施。我们还旨在成为TXP-CNN发挥作用的无状态系统。TXP-CNN直接在嵌入 [译] Social-STGCNN：CVPR2020论文翻译以及解读的图的时间维度3上运行，并将其扩展为进行预测的必要条件。由于TXP-CNN依赖于特征空间上的卷积运算，因此与循环单位相比，其参数大小较小。需要注意的一个特性是，对于TXP-CNN层，它不是置换不变性，因为在TXP-CNN产生之前，图嵌入的变化会导致不同的结果。除此之外，如果从输入到Social-STGCNN开始对行人的顺序进行排列，则预测是不变的。

总体而言，SocialSTGCNN和ST-GCNN之间有两个主要区别[27]。首先，Social-STGCNN与具有新颖内核功能的ST-GCNN完全不同地构造了图。其次，除了时空图卷积层之外，我们还添加了使用TXP-CNN操纵时间维的灵活性。ST-GCNN最初是为分类而设计的。通过使用TXP-CNN，我们的模型能够利用源自ST-GCNN的图形嵌入来预测期望的轨迹。

4.2 Implementing Social-STGCNN

要正确实现模型，必须执行几个步骤。为了便于学习，我们首先将邻接矩阵归一化。邻接矩阵A是 [译] Social-STGCNN：CVPR2020论文翻译以及解读的堆栈，我们使用以下格式[8]对称地标准化每个。

[译] Social-STGCNN：CVPR2020论文翻译以及解读

其中 [译] Social-STGCNN：CVPR2020论文翻译以及解读和是的对角节点度矩阵。我们使用和Λ分别表示和的堆栈。邻接的归一化对于图CNN正常工作至关重要，如[8]中所述。我们将在时间步t和网络层l处的顶点值表示为。假设是的堆栈。有了以上定义，我们现在可以实现在等式4中定义的ST-GCNN层，如下所示：

[译] Social-STGCNN：CVPR2020论文翻译以及解读

其中 [译] Social-STGCNN：CVPR2020论文翻译以及解读是第l层的可训练参数矩阵。应用ST-GCNN后，我们可以紧凑地表示图形。TXP-CNN接收要素并将时间维度视为要素通道。TXP-CNN由一系列残差连接的CNN组成。只有TXP-CNN的第一层没有残留连接，因为它从ST-GCNN接收 [译] Social-STGCNN：CVPR2020论文翻译以及解读，它们在观察样本和要预测的样本的尺寸方面有所不同。

5 Datasets and Evaluation Metrics

该模型在两个人体轨迹预测数据集上训练：ETH [21]和UCY [11]。ETH包含两个名为ETH和HOTEL的场景，而UCY包含三个名为ZARA1，ZARA2和UNIV的场景。数据集中的轨迹每0.4秒采样一次。我们的培训方法遵循与Social-LSTM [1]相同的策略。在Social-LSTM中，模型是在特定数据集的一部分上训练的，并针对其余部分进行了测试，并与其他四个数据集进行了验证。在进行评估时，模型会观察到与8帧相对应的3.2秒的轨迹，并预测接下来的4.8秒（即12帧）的轨迹。

有两个指标可用来评估模型的性能：等式6中定义的平均位移误差（ADE）[21]和等式7中定义的最终位移误差（FDE）[1]。直观上，ADE测量沿轨迹的平均预测性能，而FDE仅考虑端点的预测精度。由于Social-STGCNN生成了一个双变量高斯分布作为预测，为了将分布与某个目标值进行比较，我们遵循Social-LSTM [1]中使用的评估方法，其中基于预测的分布生成了20个样本。然后，使用最接近地面真实情况的样本来计算ADE和FDE。这种评估方法已被Social-GAN [6]等许多著作采用。

[译] Social-STGCNN：CVPR2020论文翻译以及解读

6 Experiments and Results Analysis

模型配置和训练设置Social-STGCNN由一系列ST-GCNN层和TXP-CNN层组成。我们在模型中使用PReLU [7]作为**函数σ。我们将训练批次大小设置为128，并使用随机梯度下降（SGD）对模型进行了250个时期的训练。初始学习率是0.01，150个纪元后变为0.002。根据我们在表1中的消融研究，使用的最佳模型有一个STGCNN层和五个TXP-CNN层。此外，值得注意的是，当ST-GCNN层数增加时，模型性能会下降。显然，[12]中的工作注意到了使用图CNN进行深入研究的问题，他们提出了一种解决方法。不幸的是，他们的解决方案没有扩展到时间图。

6.1 Ablation Study of Kernel Function

在本节中，我们的目标是找到一个合适的核函数来构造加权邻接矩阵。加权邻接矩阵 [译] Social-STGCNN：CVPR2020论文翻译以及解读是图形边缘属性的表示。内核函数将和的属性映射到附加到的值上。在Social-STGCNN的实现中，在卷积操作中将顶点贡献彼此加权。因此，核心功能可以被视为关于行人之间的社会关系的先验知识。设计核函数的一个简单的想法是使用等式8中定义的 [译] Social-STGCNN：CVPR2020论文翻译以及解读范数测量的行人之间的距离来模拟行人之间的相互影响。但是，这违背了直觉，即行人往往会受到更近距离的人的影响。为了克服这个问题，我们在行人之间使用相似性度量。建议之一是使用等式10中定义的 [译] Social-STGCNN：CVPR2020论文翻译以及解读范数的逆。分母中添加ϵ项以确保数值稳定性。另一个候选函数是高斯径向基函数[25]，如公式9所示。我们通过实验比较了这些内核功能的性能。将不同节点之间的邻接矩阵中的所有值都设置为1的情况用作基线。

[译] Social-STGCNN：CVPR2020论文翻译以及解读

表1. Social-STGCNN模型的消融研究。第一行对应于TXP-CNN层数。左侧的第一列对应于ST-GCNN层的数量。我们展示了SocialSTGCNN不同配置对ADE / FDE指标的影响。最佳设置是对ST-GCNN使用一层，对TXP-CNN使用五层。

根据表4中列出的结果，最佳性能来自功能2中定义的 [译] Social-STGCNN：CVPR2020论文翻译以及解读。函数10和2之间的区别在于0.在功能2中，我们将设置为，因为假定两个行人在一起时可以看作同一个人。没有它，该模型将在行人之间的关系上含糊不清。为此，我们在所有实验中都使用 [译] Social-STGCNN：CVPR2020论文翻译以及解读定义邻接矩阵。

[译] Social-STGCNN：CVPR2020论文翻译以及解读

6.2 Quantitative Analysis

表2将Social-STGCNN的性能与ADE / FDE指标上的其他模型进行了比较。总体而言，在这两个指标上，Social-STGCNN的性能优于以前的所有方法。FDE指标的最新技术水平是SR-LSTM [30]，误差为0.94。我们的模型在FDE指标上的误差为0.75，比最新技术水平低约20％。定性分析的结果说明了Social-STGCNN如何鼓励增强FDE指标的社交行为。对于ADE指标，Social-STGCNN比最新的SR-LSTM稍好2％。而且，它比以前的生成方法更好，与S-LSTM [1]相比，改进幅度在63％之间，与PIF [14]相比，改进幅度在4％之间。有趣的是，没有视觉信号的包含场景上下文的模型优于使用它的SR-LSTM，PIF和Sophie等方法。

[译] Social-STGCNN：CVPR2020论文翻译以及解读

图3. Social-STGCNN的定性分析。我们将使用不同内核功能（内核1：方程8和内核2：方程2）训练的模型与以前的模型进行比较。以Social-GAN [6]作为比较的基准。插图场景来自ETH [21]和UCY [11]数据集。我们使用了[6]提供的经过预先训练的Social-GAN模型。显示了各种场景：两个人平行行走（1）（2），两个人从相同方向会合（3），两个人从不同方向会合（4），一个人从一个角度会见另一组行人（5）。对于每种情况，虚线是行人所走的真实轨迹，而颜色密度是预测的轨迹分布。

推理速度和模型大小S-GAN-P [6]以前具有46.3k参数的最小模型大小。Social-STGCNN的大小仅为7.6K参数，大约是S-GAN-P中参数数量的六分之一。就推理速度而言，S-GAN-P以前是最快的方法，每个推理步骤的推理时间为0.0968秒。我们模型的推理时间为每个推理步骤0.002秒，比S-GAN-P快48倍。表3列出了我们的模型与可以作为基准的公开模型之间的速度比较。我们之所以能够获得这些结果，是因为我们克服了以前的方法的两个局限，这些方法通过模型的设计使用了循环架构和聚合机制。

[译] Social-STGCNN：CVPR2020论文翻译以及解读

数据效率在本节中，我们评估模型大小的效率是否会导致从较少的数据样本中学习的效率更高。我们进行了一系列实验，其中有5％，10％，20％和50％的训练数据。训练数据是随机选择的。选择之后，我们将输入相同的数据来训练不同的模型。使用Social-GAN作为比较基准，因为它在以前的深度模型中具有最少的可训练参数。图4显示了具有均值和误差的数据学习效率实验结果。我们注意到，当仅使用20％的训练数据时，我们的模型超过了FDE指标的最新水平。此外，仅使用20％的训练数据进行训练时，Social-STGCNN在ADE指标上的表现就超过了Social-GAN。结果还表明，与目前的模型不同，使用更多的训练数据，S-GAN-P的性能没有太大改善。一个有趣的现象是S-GAN-P不吸收更多的训练数据。我们将这种行为依赖于GAN具有数据效率这一事实，因为GAN可以从很少的训练样本中学习分布。但是，GAN的训练很容易陷入模式崩溃的问题。相比之下，我们模型的数据效率来自参数效率

[译] Social-STGCNN：CVPR2020论文翻译以及解读

6.3 Qualitative Analysis

7. Conclusion

在本文中，我们表明，针对行人轨迹预测的基于图的正确时空设置在几个关键方面比以前的方法有所改进，包括预测误差，计算时间和参数数量。通过在加权邻接矩阵中应用特定的核函数以及我们的模型设计，Social-STGCNN在许多公开可用的数据集上均优于最新模型。我们还表明，我们的配置可以形成数据有效的模型，并且可以从少量数据样本中学习。我们还定性地分析了在避免碰撞，平行行走和个人见面等情况下Social-STGCNN的性能。在这种情况下，Social-STGCNN倾向于提供比其他几种报告的方法更现实的路径预测。此外，Social-STGCNN在计算方面非常高效，将所需参数的数量除以8.5倍，与以前的模型相比，推理速度提高了48倍。将来，我们打算将Social-STGCNN扩展到涉及其他运动对象（包括自行车，汽车和行人）的多模式设置。

[译] Social-STGCNN：CVPR2020论文翻译以及解读

摘要：

1. 简介

2. 相关工作

3. 问题表述

4. 社会-STGCNN模型

4.1 Model Description

4.2 Implementing Social-STGCNN

5 Datasets and Evaluation Metrics

6 Experiments and Results Analysis

6.1 Ablation Study of Kernel Function

6.2 Quantitative Analysis

6.3 Qualitative Analysis

7. Conclusion

相关推荐