CREST: Convolutional Residual Learning for Visual Tracking
简介
视觉目标追踪,CREST,ICCV 2017
在目标跟踪界泰斗杨明玄教授的指导下,香港城市大学,阿德莱德大学的研究人员提出了基于残差学习的端到端的深度目标跟踪算法。
本文已开源,项目地址请查阅:https://ybsong00.github.io/iccv17/index.html
Github链接:https://github.com/ybsong00/CREST-Release
Motivation
不同于目标检测和识别,深度学习在目标跟踪中进展缓慢,很大原因是数据缺乏,只有第一帧具有标注数据,需要在后续帧中标注出目标物体的位置和大小。本文是首个使用残差学习方法的深度目标跟踪算法。在视觉追踪visual tracking任务中,DCFs表现突出,可以达到高精度的目标跟踪效果,但现有的方法都将特征提取和滤波器更新分开处理,很难端到端训练。本文提出的CREST算法可以使用一层卷积神经网络重新定义DCFs,完成特征提取和响应图生成的端到端训练,同时,使用残差学习的方法,在单层卷积操作为基础映射(base mapping)的基础上,并行地引入了残差映射(residual mapping),避免模型退化,减少噪声的参与导致模型漂移的干扰,提升目标响应的稳定性和适应性。
Datasets
OTB-2013,OTB-2015,VOT-2016
Attributes
1)将协同滤波器重新定义为一层卷积层,实现特征提取、响应图生成和模型更新的端到端训练。
2)使用残差学习的方法学习目标的外观变换,避免模型的退化
3)所提出的CREST追踪器在多个数据集上达到SOTA
Related Work
基于协同滤波器的追踪技术
协同滤波的优势在于其在频率域的快速运算和对物体位置的密集估计特性。与之前在复数域进行元素级点乘计算相关性的方法相比,我们的方法使用时域中的卷积操作,克服了傅立叶变换带来的边界影响问题。
基于CNN的追踪技术
现有的CNN追踪器主要依赖于预训练物体识别网络和回归模型等,而本文使用残差学习的方法获取基本映射和真实高斯响应之间的差异,有效减少了噪音对模型稳定性的影响。
Framework
本文利用了第一帧的标注信息,将残差补充于后面时间T帧的预测中,辅助基本映射生成更好的高斯响应,确定目标位置:在跟踪第T帧时,将第T帧和具有初始信息的第1帧送入特征提取层,得到特征图后,将第T帧的特征图送入基础映射层,也就是本文重构的DCF和空域残差层中,将第1帧特征图送入空域特征图,将三个层的输出进行融合得到最终的目标位置响应图。
残差学习,由左侧的基础映射和右侧的残差映射组成,可以避免堆叠很多卷积层带来的梯度消失,如此能够更好地对目标进行定位。
跟踪过程
1)在特征提取部分使用VGG网络,对基础层、时域层和空域层使用高斯函数初始化,给定第一帧图片后fine-tune卷积层和池化层使得输出接近ground truth
2)提取搜索域特征,网络前传,得到响应图,确定目标位置
3)多尺度采样,获取不同尺度的search patch再resize到相同尺寸
4)以及使用每帧跟踪结果作为训练样本,每隔T帧对模型进行更新