Siamese Keypoint Prediction Network for Visual Object Tracking---论文翻译

paper : http://xxx.itp.ac.cn/pdf/2006.04078v1
code : https://github.com/ZekuiQin/SiamKPN

Abstract

视觉对象跟踪旨在根据给定的初始边界框来估计视频序列中任意目标的位置。通过利用离线特征学习，暹罗范式最近已成为高性能跟踪的领先框架。但是，当前现有的暹罗跟踪器要么严重依赖于基于锚的复杂检测网络，要么缺乏抵抗干扰者的能力。在本文中，我们提出了暹罗关键点预测网络（SiamKPN）来应对这些挑战。在使用Siamese主干进行特征嵌入时，SiamKPN受益于用于粗略到精细预测建模的级联热图策略。尤其是，该策略是通过沿= 3wcascade顺序缩小标签热图的覆盖范围以应用宽松到严格的中间监督来实施的。在推断过程中，我们发现预测的连续阶段热图将逐渐集中到目标，并减少到干扰因素。 SiamKPN在以实时速度运行的同时，在四个基准数据集（包括OTB-100，VOT2018，LaSOT和GOT-10k）上的视觉对象跟踪方面，与最新的跟踪器相比，表现出色。

1 Introduction

视觉对象跟踪是预测视频序列中任意目标位置的任务，前提是仅在第一帧中目标的边界框即可。像图像分类，目标检测和语义分割等其他计算机视觉任务一样，由于变形，视点，比例，遮挡，照明等导致的外观变化，目标跟踪也非常具有挑战性。
此外，在考虑背景杂波和类似干扰因素时，任务甚至更难解决。在文献中，视觉对象跟踪的经典方法是判别相关滤波器[5,18]。但是，在深度学习时代，这种方法很难利用端到端的深度特征学习来获得更好的性能。
为了解决这个问题，已经采用并发展了暹罗学习范式[6]，以从离线深度特征学习中收获[45,2]。该范例学习了针对目标区域和搜索图像的共享特征嵌入网络，从而将视觉对象跟踪公式化为相似性学习问题。第一种实现是SINT [45]，它通过采样补丁对来训练暹罗网络。尽管SINT可以有效地提高跟踪精度，但由于冗余且效率低下基于补丁的特征提取，因此SINT不能实时实现。作为一个简单的修改，SiamFC [2]利用全卷积运算学习暹罗网络，并通过两个特征图之间的有效互相关来解决匹配问题。沿着这方面的研究，CFNet [46]将相关滤波器作为可区分的层并入了暹罗框架。 RASNet [50]采用注意力机制来提高互相关响应的质量。在这些方法中，预测建模部分限于简单的体系结构，这在一定程度上导致性能受限。
Siamese Keypoint Prediction Network for Visual Object Tracking---论文翻译
图1. SiamRPN ++ [26]，DiMP-50 [3]和SiamKPN-3在以下三个具有挑战性的序列上的比较：Skating1，Tiger2和Board。请注意，SiamKPN-3可以将目标与干扰因素区分开，而其他方法会在Skating1中漂移到背景。另外，SiamKPN-3s在某种程度上可以更好地抵抗部分遮挡和尺度变化。
为了改进预测模型，SiamRPN [27]在暹罗网络上从对象检测文献[37]中引入了区域提议网络（RPN）。 DaSiamRPN [59]通过扩展训练数据以包含语义上坚硬的否定对来进一步处理干扰项。最近，在SiamRPN ++ [26]中，ResNet [16]通过空间感知采样策略成功替换了主干，以保持有用的平移不变性和深度互相关以稳定训练。另一项工作[57]诉诸于种植内部残留（CIR）单元来修改ResNet，Inception [44]和ResNeXt [53]，以适应更深更广的骨干网。同时，一些方法利用级联和分支策略来提高SiamRPN的跟踪精度和鲁棒性。例如，CRPN [14]提出了一种暹罗级联RPN框架，以通过堆叠多个RPN来增强强度，这些RPN根据调整后的锚定方案进行了从粗到细的训练。 SPM-Tracker [47]设计了一个串并联结构，融合了一个粗略的匹配级以增强干扰点的鲁棒性和一个精细的匹配级以提高辨别力。尽管上面的所有基于RPN的方法总的来说有效，但在很大程度上取决于复杂锚定方案的选择，以实现合理的跟踪性能。
在本文中，我们提出了用于视觉对象跟踪的暹罗关键点预测网络（SiamKPN）。整个网络由经过改进的ResNet-50暹罗骨干（用于特征学习）和一系列紧凑的KPN头（用于预测建模）组成。特别是，我们将来自主干的多层输出作为特征，而每个KPN头都是通过标准卷积和一个深度互相关构造的。通过执行从宽松到严格的中间监督，预测的热图级联可以逐渐集中到目标，而减少到干扰因素。值得注意的是，尽管存在关键差异，但在最近的物体检测文献[7,25,58]中，我们的方法受级联和无锚策略的启发。首先，据我们所知，我们是第一个在暹罗范式中考虑对象跟踪的无锚方案的人。其次，基于锚点 ascade方法会调整每个阶段的锚以细化预测，而我们新颖的级联热图策略则采用从严格到严格的中间监督来指导细化过程。
经过多任务丢失的离线培训后，SiamKPN无需在线更新即可提供有效且高效的跟踪器。 具体而言，SiamKPN跟踪器在以实时速度运行时，在某种程度上对类似的干扰器具有鲁棒性。我们通过对四个跟踪基准进行全面的实验来评估SiamKPN跟踪器，该基准由OTB-100 [52]，VOT2018 [24]，LaSOT [12]和GOT-10k [20]组成。特别是，具有三级功能的SiamKPN跟踪器（SiamKPN3s）与最新的深度跟踪器相比表现出色，尤其是与其他暹罗跟踪器相比。图1给出了三个具有挑战性的序列的一些代表性结果。

2 Related Works

除了暹罗跟踪方法，考虑到近期调查的分类法，我们简要回顾了其他两个主要类别的深度视觉跟踪方法[30,40,55]。这两个类别包括特征提取跟踪和端到端跟踪

2.1 Feature-Extraction Tracking

大多数早期的深度跟踪方法仅将深度网络用于特征提取，并依靠经典方法进行目标预测。例如，CNN-SVM [19]训练了一个支持向量机，使用网络输出作为外观特征来对正样本和负样本进行分类。这种基于区域的分类必须依靠稀疏采样来实现运行速度，同时以性能下降为代价
更好的方案是基于深度特征训练相关滤波器。例如，HCFT [34]自适应地学习多个卷积层上的相关滤波器，以对目标外观进行编码。 C-COT [11]提出了一个联合学习框架，以融合来自不同空间金字塔的深层特征。 ECO [10]引入了分解卷积算子，生成样本空间模型和保守模型更新策略，以更好地利用深度特征进行鲁棒和有效的跟踪。 UPDT [4]提出了一种自适应融合方法，以利用深浅特征来改善跟踪性能。

2.2 End-to-End Tracking

端到端跟踪通常会学习一个统一的网络来进行特征提取和目标预测。例如，DeepTrack [29]以纯在线的方式训练了两个卷积和两个完全连接的层的简单CNN模型，以进行视觉跟踪。 MDNet [35]预训练了共享的CNN模型，并在在线学习期间微调了多个特定于域的层。 FCNT [48]采用了预训练的VGG-16网络[39]，并在视觉跟踪过程中学习了两个额外的头部网络。 STCT [49]利用集成学习来利用不同的CNN特征通道。 CREST [41]将相关滤波器重新构造为具有剩余学习的网络层。 DSLT [33]设计了收缩损失，以改善深度回归跟踪。
最近，ATOM [9]设计了基于重叠最大化的体系结构，以预测目标框与提案框之间的联合交叉（IoU）重叠。作为修改，DiMP [3]用参数优化器代替了调制模块，以进一步提高性能。注意，ATOM和DiMP都利用IoU-Net [21]处理预测建模，IoU-Net [21]仍然属于基于锚的检测范例。相反，我们的SiamKPN中的预测模型完全基于针对中心点，目标尺寸和偏移量估算的热图回归。

3 模型表示

在本节中，我们首先介绍SiamKPN的基本构建块。然后，我们详细介绍了级联热图方案，并说明了其对从粗到精预测的影响。图2展示了SiamKPN的整个框架，该框架由用于特征学习的暹罗主干和用于预测建模的紧凑型KPN头级联组成。

3.1 Siamese Backbone

暹罗骨干网类似于[26]，我们采用了改进的ResNet-50来定义我们的暹罗骨干网。为了使ResNet-50适合我们的密集预测任务，我们减小了空间步幅以保持更多特征，并应用了扩展卷积来增加其接收场。
特别是，将conv4 1和conv5 1层中的原始空间步幅转换为一层，从而生成空间较大的特征图。同时，conv4和conv5块中的原始膨胀率更改为2和4，以增加接收场。基于此经过修改的ResNet-50骨干子网，我们提取conv3 4，conv4 6和conv5 3层的输出作为特征，并应用1×1卷积来调整通道，然后再将其馈入以下头部子网。

Siamese Keypoint Prediction Network for Visual Object Tracking---论文翻译
图2. SiamKPN的框架。给定一对目标图像和搜索图像（左图），我们从改良的ResNet-50暹罗骨干的三个不同层获得卷积特征图。通过级联KPN头（右图）中的几个卷积和深度互相关进一步处理每对目标和搜索特征图。标签热图定义为不同的方差，以对每个阶段的输出热图实施不同的监督强度。

3.2 Keypoint Prediction Head

图3说明了KPN磁头的体系结构。如图所示，它由三个3×3卷积和一个5×5深度互相关构成。更具体地说，每个KPN头都涉及以下操作流程， Siamese Keypoint Prediction Network for Visual Object Tracking---论文翻译
其中Conv和Corr是卷积和互相关的缩写。此外，wt和ws分别表示用于处理目标和搜索特征图的两个卷积的参数，wa表示内部调整卷积的参数。我们已经明确表明阶段号s与以下符号一致，并且{x（0），y（0）}实际上是目标和搜索图像的暹罗主干的输出特征图。请注意，搜索特征图〜y（s）被馈入下一个阶段，同时由另外两个卷积进一步处理以获得预测的热图y（s）
除了体系结构，我们还要详细说明预测的热图中的不同渠道。在我们的实现中，定义了三种类型的任务，分别包括中心点，点偏移和目标大小估计。特别是，我们使用一个通道来处理中心点估计任务，因此它表示目标位置yy的响应图。同时，利用两个偏移通道来解决由于步长而导致{ˆox，ˆoy}的离散化误差。此外，另外两个通道被用来根据高度和宽度{ˆsh，ˆsw}估算目标尺寸。
Siamese Keypoint Prediction Network for Visual Object Tracking---论文翻译
图3.关键点预测网络的架构。它由三个卷积和一个深度互相关组成。此外，搜索特征图由另外两个卷积处理以获得预测的热图。

3.3 Cascade Heatmap Supervision

与[14]中的RPN头级联需要顺序地对锚定方案进行仔细调整不同，通过直接重复堆叠可以很容易地实现KPN头的级联。此外，整个架构通过依次缩小标签热图的方差来支持沿级联的优化。为此，我们给出了缩小的高斯热图，如下所示： Siamese Keypoint Prediction Network for Visual Object Tracking---论文翻译
其中（i，j）表示热图中任意点的坐标，（ic，jc）表示目标中心点的坐标，s = 1，2，3，。。。。代表阶段数，ρ∈（0，1]控制高斯函数中方差σ的收缩强度，因此，随着阶段数的增加，高斯热图在目标中心点附近变得更加尖峰。，沿级联的监控信号越来越严格。
Siamese Keypoint Prediction Network for Visual Object Tracking---论文翻译
图4.可视化的来自VOT2018 [24]的SiamKPN-3连续阶段中具有固定或收缩方差的Crabs1序列的预测热图。右三列分别对应于阶段1-3。
为了说明我们提出的方案的效果，我们将其与具有固定方差的朴素堆栈进行了比较。图4（a）和4（b）给出了这两种策略依次发展的热图的示例。如图所示，具有固定方差的堆叠可以稍微帮助将预测的热图集中到目标，但是它也可以增强类似干扰物的热图得分。相比之下，缩小方差方案可以很好地提高目标中的热图得分，并减少背景中的热图得分，从而随着级联的加深，更容易将目标与类似的干扰物区分开。
值得一提的是，上述方案也可以应用于点偏移和目标尺寸估计。尤其是，将点偏移标签{ox，oy}计算为准确位置和步幅限制版本之间的离散间隙，即位置（i，j）和步幅m的{im-bimc，m-bjmc} 。此外，我们将目标尺寸标签{sh，sw}定义为围绕中心点的地面高度和宽度{h，w}，否则为零。

4 Algorithms

在本节中，我们介绍了SiamKPN的训练和跟踪算法。一般而言，SiamKPN的训练是在中间监督下以端对端的方式进行的，而SiamKPN跟踪器的使用无需在线调整即可实现实时运行的高精度和鲁棒性。