Good Features to Correlate for Visual Tracking 阅读笔记

Good Features to Correlate for Visual Tracking

本文效果

1, 速度:2fps,没有实时;
2,性能:0.922(PP-OTB2013),0.692(SP-OTB2013),0.899(PP-OTB2015),0.678(SP-OTB2015),在OTB2015上相比其他算法在PP和SP上相对OTB2013结果下降不多,OTB2013的SP上没有突破0.7大关,但是总体性能已达到当前最优水平,VOT2017性能第一名,在实时测试中名次很差;
3,本人评价:本文最大的贡献在于提出了如何学习适用于CF的特征,推导了一些关键的反传公式,但是从本文的思路和实验效果来看,并没有达到预期的效果(对C-COT特征进行改进,但是性能提升很小),而且速度也一如既往的慢,应该还有很大的改进空间;

本文贡献

1, 使用CNN,专门为基于相关滤波的目标跟踪算法学习特征表达方式;
2, 基于目标跟踪问题设计损失函数,推导出如何在CNN学习过程中进行反向传播;
3,结合DCF(模型学习方法)+CCOT(特征插值方法)+DSST(尺度估计方法)+CNN(特征提取方法);

DCF子模块(简单复习)

目的:基于样本循环假设,在频域快速求解目标跟踪模型(线性),对模型进行线性更新后,在频域进行快速目标定位。

1,目标优化表达式:Good Features to Correlate for Visual Tracking 阅读笔记
2, 模型求解表达式(频域):Good Features to Correlate for Visual Tracking 阅读笔记
3, 模型更新表达式:Good Features to Correlate for Visual Tracking 阅读笔记
4,目标定位表达式(频域->时域):Good Features to Correlate for Visual Tracking 阅读笔记

CCOT(简单复习)

目的:在DCF中将来自CNN的不同大小的特征插值到同一尺度,因为只有每个通道的特征尺度相同才能一起学习DCF模型

1, 插值函数:Good Features to Correlate for Visual Tracking 阅读笔记
2,多通道目标定位函数:Good Features to Correlate for Visual Tracking 阅读笔记
3,目标优化函数:Good Features to Correlate for Visual Tracking 阅读笔记

本文方法

Good Features to Correlate for Visual Tracking 阅读笔记

1,目的:通过训练CNN,得到适合DCF的特征提取方式;
2, CNN特征与DCF:对于应用在DCF中的特征应该有平移不变性的能力,而CNN的计算原理正好满足这一需求;
3, 训练元组:τ={x,y,g}y->目标在中心的图像块,x->对目标进行随机移位的图像块(和y不在同一帧),g->根据x的移动信息建立的目标响应图;
4, 训练损失函数:Good Features to Correlate for Visual Tracking 阅读笔记Good Features to Correlate for Visual Tracking 阅读笔记
5,反向传播推导过程:略;
6,计算复杂度分析和减小:一般来讲,CNN的最后一层输出通道数大概为64~512,在DCF计算过程中傅里叶变换占据了主要时间消耗,所以如此多的通道数用在DCF中是不现实的。本文通过在经典模型的最后一层加入D->L(L<< D)进行通道数缩减。以往的经验告诉我们,CNN特征用于DCF中,特征通道数越多往往定位越稳定准确。本文认为通过本文学习后每层特征的质量得到提高,所以可以在通道数较少的情况下得到鲁棒的目标跟踪效果。

训练数据制作

1,通过VOT2015得到200K训练数据τ:截取目标周围两倍面积大小区域(正方形:为了保持缩放后目标的长宽比)并统一缩放到101*101大小,对于x则相对于中心位置随机移动[0.3×(WH)0.3×(WH)],x和y帧数差异为以5为中心的高斯分布;
2,采取和上述相同的方法在ILSVRC上采样得到200K训练数据τ

本文CNN结构

1,对于上述小训练集20K,本文采用如下两种CNN结构,均包含4个卷积层,并仅使用最后一层特征;
Good Features to Correlate for Visual Tracking 阅读笔记
2,对于上述大训练集200K,本文在VGG-M上进行fine-tune,并额外增加卷积层将VGG-M最后卷积层降维到32通道;

实验1

Good Features to Correlate for Visual Tracking 阅读笔记
1,跟踪器配置:DSST算法+VOT2015训练得到的特征;
2,上表为了说明本文所学习特征的有效性,表中本文使用在VOT2015上训练得到的单通道和多通道特征,通过表中数据可知,在其他配置相同的条件下,基于本文的特征虽然通道数少但是效果却比手工特征要好;

实验2

Good Features to Correlate for Visual Tracking 阅读笔记
1,跟踪器配置:C-COT算法+VOT2015训练得到的特征;
1,与C-COT和deepSRDCF进行对比,C-COT中使用了611通道的特征,deepSRDCF中使用了96通道的特征,本文使用27通道特征(最后一层+第0层+第一层)用于C-COT架构中,在性能上超越了C-COT;

实验3

Good Features to Correlate for Visual Tracking 阅读笔记Good Features to Correlate for Visual Tracking 阅读笔记Good Features to Correlate for Visual Tracking 阅读笔记Good Features to Correlate for Visual Tracking 阅读笔记

1,跟踪器配置:C-COT算法+(ILSVRC微调的VGG-M特征+第0层+第1层);
2,由于使用了更好的特征,所以降低了C-COT的迭代次数,得到了三倍于C-COT的跟踪速度,但是~我感觉并没有相对C-COT在性能上提升多少~~~恕我直言~这种性能的提升在C-COT上调调参数估计也能达到;