ECO,深度学习和相关滤波的结合,精读
大佬笔记:
https://blog.****.net/qq_34919792/article/details/89893433
摘要
近年来,基于区分相关滤波器(DCF)的方法已大大提高了跟踪的最新水平。 然而,在追求不断提高的跟踪性能时,它们的特征速度和实时能力已逐渐消失。 此外,具有大量可训练参数的日益复杂的模型引入了严重过度拟合的风险。 在这项工作中,我们解决了计算复杂性和过拟合问题背后的关键原因,目的是同时提高速度和性能。
我们重新审视DCF的核心公式,并引入:
(i)一个分解卷积算子, 它大大减少了模型中的参数数量;
(ii)训练样本分布的紧凑生成模型,该模型显着降低了内存和时间的复杂性,同时提供了更好的样本多样性;
(iii)具有改进的鲁棒性和降低的复杂性的保守模型更新策略。
我们在四个基准上执行了全面的实验:VOT2016,UAV123,OTB-2015和TempleColor。 当使用昂贵的深层功能时,与VOT2016挑战中排名靠前的方法[12]相比,我们的跟踪器可提供20倍的加速,并在“预期平均重叠”方面实现13.0%的相对增益。 此外,我们的快速变体使用手工制作的功能,在单个CPU上以60 Hz的频率运行,而在OTB-2015上获得65.0%的AUC。
引言
通用视觉跟踪是计算机视觉中的基本问题之一。 仅在初始状态下,估计目标在图像序列中的轨迹是一项任务。 在线视觉跟踪在众多实时视觉应用中扮演着至关重要的角色,例如智能监视系统,自动驾驶,无人机监视,智能交通控制和人机界面。 由于跟踪的在线性质,理想的跟踪器应在实时视觉系统的严格计算约束下准确而可靠。
图1.在三个示例序列上,我们的方法ECO与基线C-COT [12]的比较。 在这三种情况下,CCOT都严重过度适合目标的特定区域。 在比例尺变化(顶行),变形(中间行)和面外旋转(底行)的情况下,这会导致目标估算效果不佳。 我们的ECO追踪器成功解决了过拟合的原因,从而更好地概括了目标外观,同时实现了20倍的加速。
这里把过拟合理解为 尺寸比例变化和扭曲变形,框出来的部分不完整。
近年来,基于区分相关滤波器(DCF)的方法在跟踪基准的准确性和鲁棒性方面已显示出持续的性能改进[23,38]。 基于DCF的跟踪性能的最新进步是由多维特征[13、15],稳健的比例估计[7、11],非线性内核[20],长期存储组件[28], 复杂的学习模型[3,10]和减少边界效应[9,16]。 但是,这些准确性的提高是以大大降低跟踪速度为代价的。 例如,Bolme等人的开创性MOSSE跟踪器。 [4]在VOT2016挑战赛[23]中比最近排名靠前的DCF追踪器C-COT [12]快约1000倍,但仅获得一半的准确性。----fast and robust
如上所述,DCF跟踪性能的提高主要归因于强大的功能和复杂的学习公式[8、12、27]。
这导致了更大的模型,需要成千上万的可训练参数。 另一方面,如此复杂和大型的模型带来了严重过度拟合的风险(见图1)。 在本文中,我们解决了最近的DCF跟踪器过拟合的问题,同时恢复了其出色的实时功能。
1.1. Motivation
我们确定了三个关键因素,这些因素会导致最新的DCF跟踪器中的计算复杂性增加和过度拟合。
- 模型大小:诸如深层特征之类的高维特征图的集成导致外观模型参数的数量急剧增加,通常超出了输入图像的维数。 例如,C-COT [12]在模型的在线学习期间不断更新约800,000个参数。 由于跟踪中训练数据固有的稀缺性,因此此类高维参数空间易于过度拟合。 此外,高维数导致计算复杂度的增加,导致跟踪速度变慢。
- 训练集大小:包括C-COT在内的最新DCF跟踪器由于要依赖迭代优化算法,因此需要存储大量训练样本集。
但是实际上,内存大小是有限的,特别是在使用高维特征时。 维持可行的内存消耗的典型策略是丢弃最旧的样本。 但是,这可能会导致对最近的外观变化过度拟合,从而导致模型漂移(见图1)。 而且,大量的训练集增加了计算负担。 - 模型更新:大多数基于DCF的跟踪器都采用连续学习策略,其中在每个框架中都严格更新模型。 相反,使用暹罗网络[2],最近的工作显示出令人印象深刻的性能,而没有任何模型更新。 根据这些发现,我们认为,最新的DCF中的连续模型更新过多且对因例如比例尺变化,变形和面外旋转引起的突然变化敏感(见图1)。 由于过度适配最新帧,这种过度的更新策略会导致较低的帧速率和鲁棒性下降。