CIDNN全文翻译

用于行人轨迹预测的深度神经网络编码人群交互

由于人类的复杂性，行人轨迹预测是一项具有挑战性的任务。在本文中，我们在深度学习框架内通过考虑每个行人的运动信息及其与人群的交互来解决这个问题。具体地说，受深度学习中残差学习的启发，我们提出对每个行人的相邻帧之间的位移进行顺序预测。为了预测这种位移，我们设计了一种人群交互深度神经网络(CIDNN)，该网络考虑了不同行人对目标行人位移预测的不同重要性。具体地说，我们使用LSTM对所有行人的运动信息进行建模，并使用多层感知器将每个行人的位置映射到高维特征空间，在高维特征空间中，特征之间的内积被用作两个行人之间的空间亲和力的度量。然后根据所有行人与目标行人的空间亲和度对所有行人的运动特征进行加权，进行位置位移预测。在公开可用的数据集上的广泛实验验证了我们用于轨迹预测的方法的有效性。

Lstm 多层感知器高维特征空间亲和力度量加权预测

Introduction

行人轨迹预测的目的是基于行人的历史路径来预测行人未来的一组连续的位置坐标，由于其在行为预测[24][4]、交通流分割[22]、人群运动分析[31]、人群计数和分割[27]、异常检测[16]等方面的潜在应用，因此是计算机视觉中的一个重要任务。为了解决这个问题，已经做出了巨大的努力[3][10][29][31]。然而，由于行人的复杂性，它仍然是一个具有挑战性的问题。在实践中，为了使问题易于处理，一些工作试图通过仅考虑与行人轨迹相关的几个因素来对任务进行建模，包括个人的决策过程[10]，不同行人之间的相互作用[25]，以及每个行人的历史运动统计[26]。

鉴于计算机视觉中深度学习的成功，它也被引入到行人轨迹预测中，其中行为卷积神经网络(Behavior CNN)[25]和社会长-短期记忆(Social Long-Short Memory，Social LSTM)[1]是两种具有代表性的方法。行为CNN用图像空间中的位置位移图表示所有行人的历史轨迹，然后用CNN将每个行人与其邻居相关联，用于未来的轨迹预测。但是这种方法不能模拟在更遥远的未来行人之间的潜在相互作用。例如，如图2所示。1行人在远距离快速行走也可能会影响目标行人的行走轨迹，或者如果一群行人正朝目标步行或站在目标行人的行走方向上，即使他们距离目标行人很远，他/她也可能提前改变自己的行走方向，提前避开这些人。为了防止这种情况，提出了Social LSTM[1]。它设计了一个社交池层来捕获多个行人之间的依赖关系以及在更遥远的将来可能发生的交互，从而获得更好的性能。然而，这样的社会汇集不会基于相邻行人的空间位置和他们的运动信息来区分相邻行人的效果。

在本文中，我们提出了一种人群交互深度神经网络框架(CIDNN)来顺序预测每个行人两帧之间的坐标位移。我们假设目标行人的运动取决于其运动信息(速度，加速度)，其他行人的运动信息，以及目标与所有休息行人之间的空间亲和力，其中空间亲和力衡量休息行人对目标行人的影响程度。为了对每个行人的运动进行建模，采用了LSTM模型，该模型的输入是行人在不同时刻的坐标序列。为了度量每个行人在给定时刻对目标行人的空间亲和力，我们将行人的坐标输入多层感知器，并使用行人坐标特征与目标坐标特征之间的内积来度量空间亲和力。然后将目标与包括自身在内的所有行人之间的交互建模为其空间亲和力与相应行人的运动特征的乘积，并将交互特征馈送到另一个多层感知器中，用于下一帧中目标的坐标位移预测。我们考虑了场景中的所有行人以及他们用于轨迹预测的空间亲和力，因此如表1所示，我们的方法优于LSTM[1]和行为CNN[25]。此外，与直接预测坐标的Social LSTM和Behavior CNN不同，我们提出预测下一帧和当前帧之间的位置位移，这进一步验证了残差学习在计算机视觉中的有效性[8][9]。

CIDNN全文翻译

图1.CIDNN动机图解。目标行人(PT)从时间t到t+1的运动取决于它的运动，以及它在时间t与其他行人(P5和P6)的空间亲和力，以及其他行人的运动。虽然它到行人P1的距离很远，但是P1移动的很快，所以它也影响了PT的运动。因此，PT的轨迹预测应该考虑固定距离的行人以外的更多的行人，并且不同的行人对目标行人的影响程度也不同。

本文的贡献可以概括如下：首先，提出了一种用于轨迹预测的CIDNN架构，该架构考虑了场景中的所有行人进行轨迹预测。我们的CIDNN有三个特点：

基于LSTM的运动编码策略；
基于位置的空间亲和力测量；
基于坐标位移的轨迹预测。

我们建议使用基于位置的空间亲和度度量模块，实验表明它比基于距离的空间亲和度度量模块具有更好的性能。我们以坐标作为输入，丰富了训练样本的数量，方便了网络训练。因此，我们的CIDNN网络结构简单，易于并行。因此，我们的轨迹预测比现有的方法更加有效和高效；最后，大量的实验验证了我们的模型对于轨迹预测的有效性。

Related Work

2.1. Hand-crafted Features Based Trajectory Prediction

社会力模型和主题模型通常用于基于手工特征的轨迹预测。

社会力模型根据行人之间的相互作用学习运动模式。在[10]中首次提出对吸引力和排斥力进行建模。后来Mehran et al.。建议使用社会力模型来学习[16]中人与人之间的相互作用力。Antonini等人。[2]提出了一种离散选择框架，在假设目的地和路径已知的情况下预测行人的下一步行为。与社会力量模型不同，主题模型[22][11][6]基于空间和时间信息对运动模式进行建模。此外，轨迹聚类[13][17][21]也用于通过将不同轨迹聚类为不同类别来进行人群流估计。然而，这些方法都是基于手工制作的特征，这限制了轨迹预测的性能。

1. Deep Neural Networks Based Trajectory Prediction

基于深度学习的方法已经被引入用于行人轨迹预测[1][25][7]，鉴于其对于许多计算机视觉任务的良好性能[19][12]。具体地说，Behavior-CNN[25]使用2D地图来编码历史步行路径，并使用CNN来模拟不同行人之间的相互作用，但它没有考虑更遥远的未来行人的影响。

用于人类轨迹预测的Social LSTM[1]设计了Social Pooling层来捕获多个相关序列之的依赖关系，以及可能在更遥远的将来发生的交互，但它没有考虑不同行人的不同重要性。在[14]中，Lee et al.。使用RNN来捕获过去的运动历史、语义场景上下文以及多个代理之间的交互，用于动态场景中的轨迹预测。在[7]中，Su et al.。提出部署具有社会感知递归高斯过程的长短期记忆(LSTM)网络来对人群的复杂转变和不确定性进行建模，并取得良好的轨迹预测性能。但它也只考虑了邻近的行人，并没有区别对待他们。如上所述，一些距离较远但移动速度较快的行人也可能在下一时刻影响目标行人的轨迹，不同的行人对目标行人轨迹的影响程度不同。在本文中，我们建议在进行轨迹预测时考虑这两个因素。

3. Method

3.1. The Formulation for Pedestrian Trajectory Prediction

假设有N个行人 CIDNN全文翻译，t是当前时间戳(帧)。第i个行人在时间t的空间位置(坐标)表示为，其中，，是视频帧的空间分辨率。

给定每个行人从开始到时间t的空间坐标 CIDNN全文翻译，轨迹预测旨在预测未来时间段从t+1到t+T的坐标，即。与以前的工作[25]不同的是，他们同时预测所有这些帧中的所有坐标，我们顺序地预测每个未来帧中的坐标。此外，许多以前的工作表明，残差学习或位移预测更容易用于图像分类[8]，人脸对齐[28]，以及姿势估计[5]。由于我们的工作顺序地估计每个时间戳的坐标，因此我们建议为每个行人预测对应于当前帧的位置位移。在数学上，我们的工作旨在通过最小化以下目标函数来学习非线性函数F：

[25] S. Yi, H. Li, and X. Wang. Pedestrian behavior understanding and prediction with deep neural networks. In European Conference on Computer Vision, pages 263–279. Springer, 2016.

CIDNN全文翻译

这里，obs是观察到的帧数，F函数作为每个行人的位置位移的估计。这种位置位移或从当前帧到下一帧的移动与行人的历史运动、其他行人对目标行人的空间亲和力以及他们的历史运动有关。为了对这些因素进行建模以进行轨迹预测，我们引入了一种用于位移预测的人群交互深度神经网络(CIDNN)。图中描述了CIDNN的体系结构。2.具体而言，CIDNN由运动编码器模块、位置编码器模块、人群交互模块和位移预测模块四个模块组成。接下来，我们将依次详细介绍这四个模块。

CIDNN全文翻译

图2.人群交互深度神经网络(CIDNN)的体系结构

3.2. Motion Encoder Module

运动编码器模块用于对行人的运动模式进行建模，包括不同的历史路径和方向，不同的速度和加速度。长短期记忆(LSTM)网络在运动建模中已被证明是成功的[1][7]。通过这些工作，我们还使用LSTM网络对每个行人的运动信息进行编码。在我们的实现中，我们将两个LSTM堆叠在一起进行运动编码。对于每个行人，我们顺序地将历史坐标馈送到堆叠的LSTM中。对于行人pi，我们在时间t将LSTM的输出表示为 CIDNN全文翻译，然后在数学上

CIDNN全文翻译

其中函数f(·)表示堆叠式LSTM的输入-输出函数。在我们的实现中，两个LSTM的隐藏层节点数固定为100，并且所有行人共享相同的堆叠LSTM进行运动编码。

3.3. Location Encoder Module

如上所述，目标行人从当前帧到下一帧的移动与所有行人的运动信息相关，包括行人自己以及他们与目标行人的空间亲和力。因此，一种简单的方法是线性组合所有行人的运动特征进行位移预测，权重基于每个行人对目标行人的空间亲和度，空间亲和度衡量每个行人对目标行人的影响程度。

我们将时间t处pi和pj之间的空间亲和力表示为 CIDNN全文翻译，然后我们可以使用一些核函数用于测量，例如，高斯核。然而，这样的高斯核函数只考虑了两个行人之间的空间距离来进行空间亲和力测量。值得注意的是，给定两个行人，即使他们到目标人的距离相同，他们与目标行人的空间亲和力可能不同。这有两个可能的原因：

i)如图1所示，在p1和pt之间有一些行人，虽然p3到目标的欧几里得距离与p1到目标的欧几里德距离相似，但是p1对目标的轨迹的影响可能比p3更大。

ii)由于摄像机的视角，即使根据图像中的坐标计算出的两个行人对的距离是相同的，实际的地面距离也可能是不同的，因此这两个行人对的空间亲和力也应该是不同的。

例如，左上角的两个行人之间的距离可能与图3中右下角的两个行人的距离相同，尽管它们基于坐标的距离是相同的。因此，基于坐标的空间亲和力比基于距离的亲和力度量对于轨迹预测更有意义。那么有没有什么方法可以自动学习光学空间亲和力测量呢？

核心技巧是 CIDNN全文翻译，这里是将输入映射到高维特征空间的某个非线性函数，而是内积运算。然而，这样的通常是未知的。受核技巧的启发，我们提出用神经网络将输入(坐标)映射到高维特征空间，并使用隐藏节点之间的内积进行空间亲和力度量。具体来说，我们使用一个多层感知器作为位置编码器，它包含3层，并使用RELU**函数。这些层中隐藏节点的数量分别为32、64、128。我们将时间t处行人pi的位置编码器的输出表示为 CIDNN全文翻译，然后

CIDNN全文翻译

这里g(·)表示局部编码器的多层感知器的输入输出函数。

3.4. Crowd Interaction Module3.4.。群组交互模块

基于位置编码器的输出，我们可以测量两个行人之间的空间亲和力。对于a行人pj，我们将其在时间t与目标行人pi的空间亲和力表示为 CIDNN全文翻译，然后

CIDNN全文翻译

值得注意的是，由于 CIDNN全文翻译不一定在[0，1]之间，我们使用Softmax方法将其归一化为[0，1]，并将其用作亲和力度量。我们可以看到和是不同的，这是合理的，因为每个行人的运动都是基于他/这里的自己以及它的邻居。即使pi是pj的最近邻居，但pj可能不是pi的最近邻居。因此，pi对pj的影响程度和pj对pi的影响程度是不同的。

基于空间亲和力的定义，我们可以建模所有行人对人pi的影响程度，表示为 CIDNN全文翻译，如下所示：

CIDNN全文翻译

然后我们可以使用 CIDNN全文翻译来预测人pi在时间t和t+1之间的位置位移。这里我们综合考虑了不同行人的空间亲和力和运动信息来预测目标行人的轨迹。如果空间亲和力较大或行人移动较快，则行人可能会更多地影响目标。

3.5.。位移预测模块

我们使用一个具有线性的完全连接层来将所有行人的总效果映射到目标pi，以估计时间t和t+1之间的位置位移 CIDNN全文翻译：

CIDNN全文翻译

这里 CIDNN全文翻译是这个完全连接层中的参数。一旦我们得到了位置位移，我们就可以计算人pi在时间t+1的坐标：。

同样值得注意的是，我们分别预测每个行人的轨迹。因此，我们的框架在实现上可以很容易地并行化。此外，与行为CNN[25]和Social LSTM[1]相比，我们框架中隐藏节点的数量非常少。因此，我们的方法在实现上是非常高效的，特别是当场景中的行人数量较少时。

4. Experiments
4.1. Experimental Setup

我们使用PyTorch框架实现我们的解决方案，并使用基于小批量的随机梯度下降来优化目标函数。我们使用以下超参数设置来训练我们的网络：小批量大小(256)，学习率(0.003)，动量(0.9)，权重衰减(0.005)和历元数(50，000)。参数用‘Xavier’初始化。

CIDNN全文翻译

图3.定性结果：历史轨迹(红色)，基础真相(蓝色)，以及来自我们的模型的预测轨迹(绿色)。前三列显示了一些成功案例，最后一列显示了一些失败案例。我们可以看到，我们的预测总是与地面事实重叠，这表明了我们方法的有效性。请放大该图以获得更好的可视化效果。

数据集。我们使用以下公开可用的人体轨迹数据集来评估我们的方法：纽约中央车站(GC)[24]，ETH[18]，UCY[15]，中大人群数据集[20]和地铁站数据集[30]。如[18]所示，这些数据集还涵盖非常具有挑战性的群体行为，例如夫妻一起行走，群体相互交叉，以及群体在某些场景中形成和分散。

GC数据集由大约12，600名行人组成，大约一个小时长。通过遵循与[25]相同的实验设置，从GC数据集中均匀分割4990个短片段，每个片段可以获得一个样本。前90%的样本用于训练，其余的用于测试。

ETH数据集包含两个场景，每个场景有750个不同的行人，分为两组(ETH和Hotel)。

UCY数据集包括两个786人的场景。这个数据集有3个组成部分：ZARA-01、ZARA-02和UCY。这些数据集代表了拥挤的真实世界环境，具有数千条非线性轨迹。

中大的群组数据集包含许多在许多环境下具有不同密度和透视比例的群组视频。

地铁站数据集是在纽约中央车站收集的30分钟序列，每个序列总共包含40，000多个关键点轨迹。遵循与[1]相同的实验设置和评估标准，我们在5组ETH和UCY上使用留一法。我们在4个集合上训练和验证我们的模型，并在剩余的集合上进行测试。我们对所有的5套重复这一点。对于用于性能比较的其他基线方法，我们也使用相同的培训和测试程序。

测量。通过遵循[25]的工作，我们使用平均位移误差(ADE)作为度量来衡量不同方法的性能。ADE是弹道的整体估计点和真实点的均方误差(MSE)。它可以在数学上定义如下：

CIDNN全文翻译

在我们的实验中，我们观察了5帧的轨迹，并使用它们来预测下5帧的轨迹，因此obs=5，T=5。实际上GC数据集上的数据是从真实视频中采样的，时间间隔为20帧，所以两个相邻帧之间的时间间隔是0.8秒，第5帧的预测是未来4秒内的坐标。

基线。遵循[25]中的实验设置，我们设计了以下基线：

使用恒加速度回归因子预测每个行人的未来行走路径，该基线称为Const acc；我们还将我们的方法与以下最先进的基线∗进行了比较：
社会力(SF)[23]，为每个行人雇用一个代理来模拟轨迹生成过程。
Behavior-CNN(B-CNN)[25]其中提出了一种深度神经网络(Behavior-CNN)来模拟人群场景中的行人行为；
社会LSTM(S-LSTM)[1]，其中针对每个行人生成的多个LSTM被用于考虑相邻行人来估计其位置。
SRGP[7]，其中使用具有社会感知的递归高斯过程的长短期记忆(LSTM)网络来对人群的复杂过渡和不确定性进行建模。

Y. D. B. Z. Hang Su, Jun Zhu. Forecast the plausible paths in crowd scenes. In Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence, IJCAI-17, pages 2772–2778, 2017

CIDNN全文翻译

表1.不同方法在GC、ETH、UCY、中大人群和地铁站数据集上的性能比较。

4.2. Performance Comparison

我们将我们的方法与其他基线方法在GC、ETH、UCY、中大人群数据集和地铁站数据集上进行了比较，在表1中。我们可以看到我们的方法在所有数据集上的表现都明显优于所有现有方法和其他基线方法，这验证了我们解决方案的有效性。表2列出了[1]最终位移误差(FDE)和平均非线性位移误差(ANDE)中使用的基于比较的度量。

CIDNN全文翻译

表2.多个评价指标的比较

我们在图3的GC数据集中进一步展示了预测的轨迹及其地面真实。如前所述，每个行人的轨迹都会受到附近其他人的影响，但是我们的人群交互模块可以学习这种影响的不同模式。前三列显示该模型可以很好地预测轨迹，即使它们与其他轨迹相交。同时，在图的最后一列。3，我们还展示了一些失败的案例，这可能是由于地面事实中目的地的突然变化。尽管这种突然的变化很难建模，但我们的方法仍然预测出与地面事实非常相似的轨迹。

除了空间亲和力之外，某人的移动还取决于他的移动速度、方向等。我们在图4中显示了两个例子。我们可以看到，在碰撞情况下，对于地面事实和预测，慢走的人会让快走的人先走。

CIDNN全文翻译

图4.碰撞情况的例子

4.3.。CIDNN中不同成分的评价

坐标回归与位移回归在我们的位移预测模块中，我们使用完全连接的图层来映射加权特征，以估计行人pi在时间t+1和时间t之间的位移δsti+1。除了δS回归外，我们还尝试使用加权特征来直接估计Sti+1。我们在表3中显示了这两种不同策略的结果。我们可以看到位移回归总是比直接预测地面真相获得更高的精度。这是因为LSTM对连续帧之间的速度、加速度进行了很好的编码，并且只预测位移比预测(位移+当前坐标)更容易。位移回归策略的良好性能验证了残差回归在轨迹预测中的有效性，这与现有的图像分类和面部/身体关键点检测工作是一致的。

为了验证人群交互模块的有效性，我们还训练了一个没有人群交互模块的网络，即直接基于从堆叠的LSTM中提取的运动特征来估计位移。我们在表3中比较了有/没有人群交互模块的性能。我们可以看到，有人群交互模块的网络比没有人群交互模块的网络性能更好。这是因为带有人群交互模块的网络考虑了不同邻近行人的不同重要性。

运动编码器的评价为了评价运动编码器的重要性，我们提出用CIDNN中所有相邻帧之间的位移来代替它，我们称这样的基线为CIDNN w/o LSTM。我们的方法与CIDNN w/o LSTM的比较如表3所示。我们可以看到我们的CIDNN取得了更好的性能，这验证了LSTM在运动表征方面的有效性。

CIDNN全文翻译

表3.CIDNN中不同组件的性能评估

我们还研究了不同层次的堆叠式LSTM在GC上用于运动编码器的性能。当堆叠的LSTM的层数为1，2和3时，均方误差结果分别为0.014，0.0125和0.013。考虑到精度和效率，我们将层数固定为2。

为了评估我们的位置编码器的重要性，我们还将我们的方法与高斯核κ(sti；stj)=EXP(−λkSti−Sj t k2)进行了比较，这是一种基于距离的空间亲和性度量。性能比较如表3所示。我们的方法的良好性能验证了我们的位置编码器模块用于空间亲和力测量的有效性。

我们进一步在图5(A)中显示了我们的空间亲和力与GC上两个行人之间的欧几里得距离之间的关系。我们可以看到，我们的方法测量的空间亲和力通常对于距离较小的点较大，而对于距离较大的点则较小。SA如图5(B)所示，由于行人对(P2 PT 2)和(P3，PT 2)之间的欧几里得距离相似，并且它们之间的空间亲和力也相似，而对之间的欧几里得距离(P2 PT 2)小于(P4 PT 2)的欧几里德距离，所以(P4 PT 2)的空间亲和力较小。此外，如我们先前所讨论的，即使两个行人对具有基于坐标计算的不同距离，它们的空间亲和力也可能是相似的，因为基于坐标的距离不是由于视角的影响而导致的实际地平面距离。我们还在图5(B)中给出了一个例子，并且我们可以看到，尽管行人对(P1，Pt1)之间的基于坐标的距离比行人对(P2，Pt2)的基于坐标的距离小，但是由于视角的原因，它们的地面距离相似，所以它们的空间亲和力也是相似的。图6显示了GC数据集上场景中不同时间戳上不同行人的空间亲和力。我们可以看到，相邻的行人通常具有较大的空间亲和力，这验证了我们的空间亲和力定义的有效性。

对具有挑战性的数据的性能为了显示不同方法对更具挑战性的数据的性能，我们将GC数据集分为两个子集(非直线/直线轨迹)。结果如图4所示。结果表明，我们的方法在两个子集上都达到了最好的性能

CIDNN全文翻译

表4.直线非直线轨迹的预测误差。

CIDNN全文翻译

图5.(A)GC数据集上的OUR空间亲和力和欧几里德距离之间的关系。当我们将坐标提供给位置编码器时，我们将坐标归一化为[0，1]。所以距离也是归一化的。(B)举例说明欧几里得距离和空间亲和力之间的关系。

我们用高斯噪声N(0；v3‘)随机污染一部分训练数据，其中v’是它们的平均速度。当高斯噪声为0%，5%，10%和20%时，在GC数据集上的均方误差分别为0.0125，0.0137，0.0143和0.0145，这表明了我们方法的鲁棒性。

更长时间的轨迹预测GC上0.8秒、4秒和8秒轨迹预测的ADE值分别为0.005、0.012和0.034，优于社交LSTM的ADE值分别为0.009、0.020和0.040。我们进一步看到，轨迹预测的性能在较长时间内退化。但是我们的方法相对于社会LSTM的改进随着时间的推移而增加，因为我们的公式考虑了所有可能的行人，这可能对未来的目标轨迹预测做出贡献。

运动编码器的输入在我们的实现中，我们将每个行人在不同时间的坐标输入到运动编码器中。我们还尝试用GC数据集上相邻帧之间的位移替换运动编码器的输入。这样的模型在GC上的ADE得分为0.021，而我们的基于坐标的模型在ADE方面达到了0.012。一个可能的原因是，除了运动之外，行人的坐标将提供额外的位置信息，这进一步提高了轨迹预测的性能。

4.4.。位置编码器和运动编码器的可转移性

为了评估位置编码器和运动编码器的可移植性，我们进行了跨域实验。我们评估了在目标域上训练的位置编码器(L)和运动编码器(M)与目标域的性能。在我们的实验中，我们使用GC和地铁站，因为它们都与地铁场景相对应，并且选择一个数据集作为源域，另一个数据集作为目标域，如表所示。5.由于GC比地铁站大得多，基于GC训练的模型在地铁上也取得了令人满意的结果。此外，我们发现运动更容易转移，因为更大的数据集可以很好地覆盖所有行人的所有可能的运动趋势。相比之下，位置编码器的可移植性不是很好，因为场景布局以及摄像机视角不同。此外，在GC上训练然后在地铁上微调的模型的性能为0.017，如果源/目标反向改变，则性能为0.013。

CIDNN全文翻译

图6.不同运动编码器在不同时间的人群交互得分。(A)代表定性结果：历史轨迹(红色)，地面真相(蓝色)，以及我们模型的预测轨迹(绿色)。(B)-(F)分别表示从t+1到t+5的时间的空间亲和度得分。x轴和y轴表示每个行人的ID。

CIDNN全文翻译

表5.不同迁移学习设置下的预测误差

4.5. Time cost

我们在GC数据集上测试我们方法的运行时间。我们的模型分别在NVIDIA GeForce Titan GPU平台和Intel(R)Xeon(R)CPU E5-2643 v3 3.40 GHz CPU平台上实现。我们运行程序20次，并计算每个映像的平均运行时间。更准确地说，CIDNN在GPU上的平均运行时间为0.43ms。CIDNN在CPU上的时间开销为1.91ms。

5. Conclusion

本文设计了一种用于位移预测的人群交互深度神经网络(CIDNN)。我们的模型考虑了人群中不同行人对目标行人影响程度的差异。具体地说，我们提出使用LSTM对每个行人的运动进行建模，然后根据所有行人与目标行人的空间亲和度对所有行人的运动特征进行加权，以进行位置位移预测。与现有的Social LSTM[1]，Behavior-CNN[25]相比，我们的方法考虑了基于所有行人对目标行人的空间亲和力的不同重要性。在公开可用的数据集上的广泛实验验证了我们用于轨迹预测的方法的有效性。

这里提出的解决方案用于轨迹预测。但它也可以应用于其他应用，例如视频中的面部关键点检测和视频中的人体姿势估计(身体关键点检测)。基于外观的关键点检测通常是耗时的。通过将我们的方法与关键帧中基于外观的关键点检测相结合，我们可以避免对每一帧进行关键点检测，这可以在不降低准确率的情况下提高效率。

相关推荐