论文阅读:《POI: Multiple Object Tracking with High Performance Detection and Appearance Feature 》

论文阅读:《POI: Multiple Object Tracking with High Performance Detection and Appearance Feature 》

 

 Detection

在基于数据关联的MOT中,跟踪性能受检测结果的严重影响。 我们基于Faster R-CNN [14]实现检测器。在我们的实现中,CNN模型是从ImageNet上的VGG-16进行微调的。 训练数据包括ETHZ行人数据集[4],Caltech行人数据集[2]和自收集的监控数据集(365653框,以47556帧显示)。我们采用多尺度训练策略,每次都随机抽取金字塔尺度。 但是,我们在测试期间仅使用单个比例尺和单个模型。此外,我们还使用 skip pooling[1]和multi-region[5]策略来组合不同规模和级别的特征。

在考虑MOT16 [12]中MOTA的定义时,假阴性(FN)和假阳性(FP)的总和对MOTA的价值有很大的影响。在表1中,我们表明我们的检测优化策略导致FP和FN3的总和显着减少。

论文阅读:《POI: Multiple Object Tracking with High Performance Detection and Appearance Feature 》

我们对Faster R-CNN使用检测得分阈值0.3,对DPMv5使用-1,将检测框的ID标记为增量整数,并使用MOT16 devkit评估FP和FN。

 Appearance Feature

外观特征之间的距离用于计算数据关联中的affinity value。
基于理想外观特征的affinity value对于相同身份的人应该较大,而对于不同身份的人则较小。
在我们的实现中,我们使用类似于GoogLeNet [15]的网络提取外观特征。 我们网络的输入大小为96×96,pool5层的内核大小为3×3,而不是7×7。输出层是输出128维特征的完全连接层。在跟踪阶段,首先根据检测响应裁剪补丁,然后将其调整为96×96大小以进行特征提取。余弦距离用于测量外观亲和力。

为了进行训练,我们收集了一个数据集,其中包含来自19835个身份的近119 K个patch。这样的数据集由ReID数据集组成,包括PRW [18],Market-1501 [18],VIPER [13]和CUHK03 [8]。在训练期间,我们共同使用softmax和 triplet loss,softmax损失保证了外观特征的判别能力,而三重态损失则确保了相同身份的外观特征的余弦距离很小。

Affinity Matrix Construction

论文阅读:《POI: Multiple Object Tracking with High Performance Detection and Appearance Feature 》