文献翻译 Siam R-CNN: Visual Tracking by Re-Detection
Siam R-CNN: Visual Tracking by Re-Detection(Siam R-CNN:通过重新检测进行视觉跟踪)
摘要
我们提出了Siam R-CNN,这是一个Siam的再检测架构,它充分发挥了两阶段目标检测方法在视觉目标跟踪中的作用。我们将此与一种新的基于轨迹的动态规划算法相结合,该算法利用第一帧模板和前一帧预测的重新检测,来建模被跟踪对象和潜在干扰对象的完整历史。这使得我们的方法能够做出更好的跟踪决策,以及在长时间遮挡后重新检测被跟踪的对象。最后,我们提出了一种新的实例挖掘策略来提高Siam RCNN对相似目标的鲁棒性。提出的跟踪器在10个跟踪基准上达到了目前最好的性能,特别是在长期跟踪方面有很强的效果.
前言
我们使用再检测跟踪的范例来处理视觉目标跟踪。我们提出了一种功能强大的新型重新检测器,Siam R-CNN,它是对速度更快的R-CNN[74]的一种改进,采用了Siamese架构,它通过确定建议区域是否与模板区域相同来重新检测图像中的任何地方的模板对象,并对该对象的边界框进行回归。我们的两阶段检测体系结构是健壮的,可以抵抗对象和长宽比的变化,因为建议区域是一致的,这与流行的基于交叉相关关系的方法[49]形成了对比.
通过重新检测的跟踪有着悠久的历史,可以追溯到Avidan[1]和Grabner等人的开创性工作[28]。由于存在与模板对象非常相似的干扰对象,所以重新检测是一个挑战。在过去,干扰物的问题主要是通过来自先前预测的强空间先验[4,49,48]或在线适应[1,28,2,76,30,77,42]来解决的。这两种策略都容易漂移。
我们在Siam R-CNN的重新探测器设计之外,还做了两个新的贡献来解决干扰物的问题。首先,我们介绍了一种新的难例挖掘程序,它专门训练我们的再探测器来对付困难的干扰物。其次,我们提出了一种新的轨迹轨迹动态规划算法(TDPA),该算法通过重新检测前一帧中所有的目标候选框,并将这些候选框随时间分组到轨迹轨迹(短目标轨迹)中,同时跟踪所有潜在的目标,包括干扰目标。然后使用动态编程根据视频中所有目标对象和干扰对象tracklets的完整历史选择当前时间步长的最佳对象。Siam R-CNN通过明确地建模所有潜在对象的运动和相互作用,并将检测到的相似信息汇集到tracklets中,能够有效地进行长期跟踪,同时抵抗跟踪器漂移,能够在消失后立即重新检测到对象。我们的TDPA在每个时间步中只需要一小部分新的重新检测,就可以在线迭代地更新它的跟踪历史。这使得Siam R-CNN在拥有ResNet-101主干网的情况下,可以以每秒4.7帧(FPS)的速度运行,在拥有ResNet-50主干网的情况下,可以以每秒15帧以上的速度运行,输入建议图像更少,输入图像大小更小。
我们提供了大量数据集的评估结果。Siam R-CNN优于所有先前的方法六个短期跟踪基准,OTB2015 [99], TrackingNet [66], GOT-10k [38], NFS [43], VOT2015[46]和OTB50[99]以及四个长期跟踪基准,LTB35 [62], UAV20L [65], LaSOT[23]和OxUVA[86],达到尤其强劲性能指标,10百分点高于先前的方法。Siam R-CNN通过使用现成的长方形分割网络获得分割掩模,也胜过了之前所有只使用第一帧边界框(不带掩模)的视频对象分割方法(包括val和test-dev)[72]、YouTube-VOS 2018[101]和DAVIS 2016[71]。所有代码和模型都将可用。
相关工作
视觉对象跟踪(VOT)。VOT是在给定物体第一帧边界框的情况下,通过视频跟踪物体的任务。VOT通常根据OTB[98, 99]、每年的VOT挑战[47,45]以及更多的基准进行评估[66,38,117,65,43]。最近提出了一些长期的跟踪基准[62,86,23],这些基准将VOT扩展到更困难和更现实的设置,其中对象必须在许多帧中进行跟踪,对象消失和重新出现。
许多经典的方法使用在线学习分类器对整个图像重新检测感兴趣的目标
[1,28,2,76,30,77,42]。相比之下,Siam R-CNN通过离线训练而不是在线学习分类器来学习期望的外观变化.
与我们的Siam R-CNN一样,许多最近的方法使用Siamese架构来处理VOT。Siamese区域建议网络(SiamRPN[49])使用单级RPN[74]检测器,通过将深度模板特征与当前帧的深度特征交叉关联来重新检测模板。在这里,单阶段是指直接对锚盒[57]进行分类,这与两阶段架构[74]不同,两阶段架构首先生成提案,然后调整其特征,在第二阶段进行分类。最近的跟踪方法改进了SiamRPN,使其能够分散注意力(DaSiamRPN[118]),增加了级联(C-RPN[25]),产生了遮罩(SiamMask[94]),使用了更深层次的架构(SiamRPN+[114]和SiamRPN++[48]),并维护了一组不同的模板(THOR[78])。这些(以及更多的[7,35,63])只在先前预测的一个小窗口内搜索目标。DiMP[5]遵循了这一范式,而元学习是一个健壮的目标和背景外观模型。
VOT的其他最新发展包括使用具有在线学习功能的领域特定层[67]、学习自适应空间滤波器正则化器[17]、利用类别特定语义信息[85]、使用连续[20]或分解的[18]卷积以及使用重叠预测网络[19]实现精确的边界盒预测。Huang等人提出了一种将任何检测器转换成跟踪器的框架。和Siam R-CNN一样,他们也采用了两阶段架构,但是他们的方法依赖于元数据获取,并且获得的精度要低得多。
长期跟踪主要通过在检测置信度较低时增大这些Siam跟踪器的搜索窗口来解决**[118,48]**。相比之下,我们使用了一个两阶段的Siamese重新探测器,它可以搜索整个图像,在许多基准上产生比当前方法更强的结果,特别是对于长期跟踪。
视频对象分割(VOS)。VOS是VOT的一个扩展,其中提供了一组模板分割掩码,需要在每一帧中生成分割掩码。许多方法对模板掩码执行微调[8,64,89,52,3,60],这导致了强大的结果,但速度很慢。最近,有几种方法使用了first frame蒙版,但没有进行微调[12、105、13、37、100、101、87、69],运行速度更快,但性能往往不佳。很少有方法[94,108]处理生成掩模跟踪结果的更困难的问题,而只使用给定的模板包围框而不使用掩模。我们调整我们的方法来执行 VOS 在这个设置中使用第二个网络来产生遮罩为我们的箱子跟踪结果。