Good Features to Correlate for Visual Tracking 阅读笔记
Good Features to Correlate for Visual Tracking
本文效果
1, 速度:2fps,没有实时;
2,性能:0.922(PP-OTB2013),0.692(SP-OTB2013),0.899(PP-OTB2015),0.678(SP-OTB2015),在OTB2015上相比其他算法在PP和SP上相对OTB2013结果下降不多,OTB2013的SP上没有突破0.7大关,但是总体性能已达到当前最优水平,VOT2017性能第一名,在实时测试中名次很差;
3,本人评价:本文最大的贡献在于提出了如何学习适用于CF的特征,推导了一些关键的反传公式,但是从本文的思路和实验效果来看,并没有达到预期的效果(对C-COT特征进行改进,但是性能提升很小),而且速度也一如既往的慢,应该还有很大的改进空间;
本文贡献
1, 使用CNN,专门为基于相关滤波的目标跟踪算法学习特征表达方式;
2, 基于目标跟踪问题设计损失函数,推导出如何在CNN学习过程中进行反向传播;
3,结合DCF(模型学习方法)+CCOT(特征插值方法)+DSST(尺度估计方法)+CNN(特征提取方法);
DCF子模块(简单复习)
目的:基于样本循环假设,在频域快速求解目标跟踪模型(线性),对模型进行线性更新后,在频域进行快速目标定位。
1,目标优化表达式:
2, 模型求解表达式(频域):
3, 模型更新表达式:
4,目标定位表达式(频域->时域):
CCOT(简单复习)
目的:在DCF中将来自CNN的不同大小的特征插值到同一尺度,因为只有每个通道的特征尺度相同才能一起学习DCF模型
1, 插值函数:
2,多通道目标定位函数:
3,目标优化函数:;
本文方法
1,目的:通过训练CNN,得到适合DCF的特征提取方式;
2, CNN特征与DCF:对于应用在DCF中的特征应该有平移不变性的能力,而CNN的计算原理正好满足这一需求;
3, 训练元组:
4, 训练损失函数:;
5,反向传播推导过程:略;
6,计算复杂度分析和减小:一般来讲,CNN的最后一层输出通道数大概为64~512,在DCF计算过程中傅里叶变换占据了主要时间消耗,所以如此多的通道数用在DCF中是不现实的。本文通过在经典模型的最后一层加入D->L(L<< D)进行通道数缩减。以往的经验告诉我们,CNN特征用于DCF中,特征通道数越多往往定位越稳定准确。本文认为通过本文学习后每层特征的质量得到提高,所以可以在通道数较少的情况下得到鲁棒的目标跟踪效果。
训练数据制作
1,通过VOT2015得到200K训练数据
2,采取和上述相同的方法在ILSVRC上采样得到200K训练数据
本文CNN结构
1,对于上述小训练集20K,本文采用如下两种CNN结构,均包含4个卷积层,并仅使用最后一层特征;
2,对于上述大训练集200K,本文在VGG-M上进行fine-tune,并额外增加卷积层将VGG-M最后卷积层降维到32通道;
实验1
1,跟踪器配置:DSST算法+VOT2015训练得到的特征;
2,上表为了说明本文所学习特征的有效性,表中本文使用在VOT2015上训练得到的单通道和多通道特征,通过表中数据可知,在其他配置相同的条件下,基于本文的特征虽然通道数少但是效果却比手工特征要好;
实验2
1,跟踪器配置:C-COT算法+VOT2015训练得到的特征;
1,与C-COT和deepSRDCF进行对比,C-COT中使用了611通道的特征,deepSRDCF中使用了96通道的特征,本文使用27通道特征(最后一层+第0层+第一层)用于C-COT架构中,在性能上超越了C-COT;
实验3
1,跟踪器配置:C-COT算法+(ILSVRC微调的VGG-M特征+第0层+第1层);
2,由于使用了更好的特征,所以降低了C-COT的迭代次数,得到了三倍于C-COT的跟踪速度,但是~我感觉并没有相对C-COT在性能上提升多少~~~恕我直言~这种性能的提升在C-COT上调调参数估计也能达到;