论文阅读：《POI: Multiple Object Tracking with High Performance Detection and Appearance Feature 》

Detection

在基于数据关联的MOT中，跟踪性能受检测结果的严重影响。我们基于Faster R-CNN [14]实现检测器。在我们的实现中，CNN模型是从ImageNet上的VGG-16进行微调的。 训练数据包括ETHZ行人数据集[4]，Caltech行人数据集[2]和自收集的监控数据集（365653框，以47556帧显示）。我们采用多尺度训练策略，每次都随机抽取金字塔尺度。但是，我们在测试期间仅使用单个比例尺和单个模型。此外，我们还使用 skip pooling[1]和multi-region[5]策略来组合不同规模和级别的特征。

在考虑MOT16 [12]中MOTA的定义时，假阴性（FN）和假阳性（FP）的总和对MOTA的价值有很大的影响。在表1中，我们表明我们的检测优化策略导致FP和FN3的总和显着减少。

我们对Faster R-CNN使用检测得分阈值0.3，对DPMv5使用-1，将检测框的ID标记为增量整数，并使用MOT16 devkit评估FP和FN。

Appearance Feature

外观特征之间的距离用于计算数据关联中的affinity value。
基于理想外观特征的affinity value对于相同身份的人应该较大，而对于不同身份的人则较小。
在我们的实现中，我们使用类似于GoogLeNet [15]的网络提取外观特征。我们网络的输入大小为96×96，pool5层的内核大小为3×3，而不是7×7。输出层是输出128维特征的完全连接层。在跟踪阶段，首先根据检测响应裁剪补丁，然后将其调整为96×96大小以进行特征提取。余弦距离用于测量外观亲和力。

为了进行训练，我们收集了一个数据集，其中包含来自19835个身份的近119 K个patch。这样的数据集由ReID数据集组成，包括PRW [18]，Market-1501 [18]，VIPER [13]和CUHK03 [8]。在训练期间，我们共同使用softmax和 triplet loss，softmax损失保证了外观特征的判别能力，而三重态损失则确保了相同身份的外观特征的余弦距离很小。

Affinity Matrix Construction

论文阅读：《POI: Multiple Object Tracking with High Performance Detection and Appearance Feature 》

论文阅读：《POI: Multiple Object Tracking with High Performance Detection and Appearance Feature 》

Detection

Appearance Feature

Affinity Matrix Construction

相关推荐