2017目标跟踪算法综述
作者:Kindle君
时间:2017年7月31日。
声明:版权所有,转载请联系作者并注明出处
- 本文所提的跟踪主要指的是单目标跟踪,多目标跟踪暂时不作为考虑范围。
- 本文主要从常用的评价标准,如EAO,EFO,fps等,分析2016-2017年最新出的目标跟踪文章在应用层面的优缺点。
- 算法原理不作为本文重点,旨在对比不同方法的“效果和时间性能”,方便大家根据不同的业务常见选择不同的方法。
- 本文按照以下几类进行展开,并不局限于传统方法或者深度学习。
TCNN & C-COT & ECO (根据名次递增)
CFNet & DCFNet & SANet & DRLT (端到端CNN & RNN)
CA-CF & BACF (利用背景信息,框架性通用改进)
ACET & Deep-LK (优于C-COT or MDNet, 且CPU实时)
LMCF & Vision-based (速度提升,但性能提升不明显CPU实时)
目标跟踪VOT2016 BenchMark评价标准介绍
见 目标跟踪VOT2016 BenchMark评价标准介绍
推荐网站
OTB Results: 这是foolwood总结的目标跟踪发展主线图:

这是foolwood总结的
这是浙江大学Mengmeng Wang同学在极视角公开课上展示的一个总结:

foolwood这个人在github上最新的一些跟踪方法常见数据集上的结果比较。
Tracker |
AUC-CVPR2013 |
Precision-CVPR2013 |
AUC-OTB100 |
Precision-OTB100 |
AUC-OTB50 |
Precision-OTB50 |
Deep Learning |
ECO |
- |
- |
0.694 |
- |
- |
- |
Y |
SANet |
- |
- |
0.692 |
0.928 |
- |
- |
Y |
MDNet |
0.708 |
0.948 |
0.678 |
0.909 |
0.645 |
0.890 |
Y |
TCNN |
0.682 |
0.937 |
0.654 |
0.884 |
- |
- |
Y |
C-COT |
0.673 |
0.899 |
0.671 |
0.898 |
0.614 |
0.843 |
N |
CRT |
- |
- |
0.644 |
0.875 |
0.594 |
0.835 |
N |
DNT |
0.664 |
0.907 |
0.627 |
0.851 |
- |
- |
Y |
SINT+ |
0.655 |
0.882 |
- |
- |
- |
- |
Y |
DRT |
0.655 |
0.892 |
- |
- |
- |
- |
Y |
RDT |
0.654 |
- |
0.603 |
- |
- |
- |
Y |
SRDCFdecon |
0.653 |
0.870 |
0.627 |
0.825 |
0.560 |
0.764 |
N |
DeepLMCF |
0.643 |
0.892 |
- |
- |
- |
- |
Y |
MUSTer |
0.641 |
0.865 |
0.575 |
0.774 |
- |
- |
N |
DeepSRDCF |
0.641 |
0.849 |
0.635 |
0.851 |
0.560 |
0.772 |
Y |
SINT |
0.635 |
0.851 |
- |
- |
- |
- |
Y |
LCT |
0.628 |
0.848 |
0.562 |
0.762 |
0.492 |
0.691 |
N |
SRDCF |
0.626 |
0.838 |
0.598 |
0.789 |
0.539 |
0.732 |
N |
LMCF |
0.624 |
0.839 |
- |
- |
- |
- |
N |
SCF |
0.623 |
0.874 |
- |
- |
- |
- |
N |
SiamFC |
0.612 |
0.815 |
- |
- |
- |
- |
Y |
SiamFC_{3s} |
0.608 |
0.809 |
0.582 |
0.773 |
- |
- |
Y |
CF2 |
0.605 |
0.891 |
0.562 |
0.837 |
0.513 |
0.803 |
Y |
HDT |
0.603 |
0.889 |
0.654 |
0.848 |
0.515 |
0.804 |
Y |
Staple |
0.600 |
0.793 |
0.578 |
0.784 |
- |
- |
N |
FCNT |
0.599 |
0.856 |
- |
- |
- |
- |
Y |
CNN-SVM |
0.597 |
0.852 |
0.554 |
0.814 |
0.512 |
0.769 |
Y |
SCT |
0.595 |
0.845 |
- |
- |
- |
- |
Y |
SO-DLT |
0.595 |
0.810 |
- |
- |
- |
- |
Y |
BIT |
0.593 |
0.817 |
- |
- |
- |
- |
N |
DLSSVM |
0.589 |
0.829 |
0.541 |
0.767 |
- |
- |
Y |
SAMF |
0.579 |
0.785 |
0.535 |
0.743 |
- |
- |
N |
RPT |
0.577 |
0.805 |
- |
- |
- |
- |
N |
MEEM |
0.566 |
0.830 |
0.530 |
0.781 |
0.473 |
0.712 |
N |
DSST |
0.554 |
0.737 |
0.520 |
0.693 |
0.463 |
0.625 |
N |
CNT |
0.545 |
0.723 |
- |
- |
- |
- |
Y |
TGPR |
0.529 |
0.766 |
0.458 |
0.643 |
- |
- |
N |
KCF |
0.514 |
0.740 |
0.477 |
0.693 |
0.403 |
0.611 |
N |
GOTURN |
0.444 |
0.620 |
0.427 |
0.572 |
- |
- |
Y |
TCNN & C-COT & ECO (根据名次递增)
==TCNN:17_arXiv CVPR_(TCNN)_Modeling and Propagating CNNs in a Tree Structure for Visual Tracking==
- 2016年8月25提交,已发表在CVPR
- 2016年VOT比赛的亚军,效果最佳,性能较差,但树结构的思想可以借鉴
方法 |
dataset |
帧率fps |
机器配置 |
是否Deep Learning |
TCNN |
OTB-50、OTB-100、VOT-2015 |
1.5 |
Intel Core i7-5820K CPU with 3.30GHz and a single NVIDIA GeForce GTX TITAN X GPU |
Y |
数据源 |
 |
 |
==C-COT:16_ECCV_(CCOT)_Beyond Correlation Filters - Learning Continuous==
- 2016年8月29提交
- VOT2016第一名
- 速度较慢,性能很好,思路可以借鉴
方法 |
dataset |
帧率fps |
机器配置 |
是否Deep Learning |
C-COT |
OTB-2015、Temple-Color |
1.05 |
i5 6600 4.5GHz(网上别人测的) |
Y |
数据源 |
 |
 |
==ECO==:
- 2016年11月28提交
- 效果最好,性能最佳
方法 |
dataset |
帧率fps |
机器配置 |
是否Deep Learning |
ECO |
VOT2016 |
6 (不含特征提取) |
a 4-core Intel Core i7-6700 CPU at 3:4 GHz. |
Y |
|
|
8 (含特征提取) |
a 4-core Intel Core i7-6700 CPU at 3:4 GHz. & a Tesla K40 GPU |
Y |
ECO-HC |
UAV123 |
60(含特征提取) |
a 4-core Intel Core i7-6700 CPU at 3:4 GHz |
N |
ECO |
TempleColor |
|
a gain of 0:8% in AUC than C-COT |
|
ECO-HC |
OTB-2015 |
60fps(含特征提取) |
a 4-core Intel Core i7-6700 CPU at 3:4 GHz |
N |
数据源 |
 |
 |
CFNet & DCFNet & SANet & DRLT (端到端CNN & RNN)
==CFNet==:
- 2017年4月20日提交到arXiv CVPR
- 在保证一定效果的情况下,参数占用空间较小100-600k
- GPU下可达到实时
方法 |
dataset |
帧率fps |
机器配置 |
是否Deep Learning |
CFNet |
OTB-2013、OTB-50、OTB-100 |
43-83 |
4.0GHz Intel i7 CPU and an NVIDIATitan X GPU |
Y |
数据源 |
 |
==DCFNet(17_arXiv prePrint_(DCFNet)_ Discriminant Correlation Filters Network for Visual Tracking)==
- 2017年4月13日发表到CVPR,作者foolwood,就是最开始提的那个会及时tracker的github博主,代码开源了:https://github.com/foolwood/DCFNet
- 效果和速度较CFNet均有提升,且GPU比CFNet的GPU更低端
- 存储空间更小,工程化的可能性比CFNet更大:The convolutional layers of our lightweight network (only
75KB) consist of conv1 from VGG [14] with all pooling layers removed and the output forced to 32 channels
- 在NUS-PRO、TempleColor128、UAV123训练,在OTB-2013、OTB-2015、VOT-2015上测试
- 用到了RNN, 输入crop到125x125
方法 |
dataset |
帧率fps |
机器配置 |
是否Deep Learning |
DCFNet |
OTB-2013、OTB-2015、VOT-2015 |
36.86-89.44 |
Intel Xeon 2630 at 2.4GHz and a single NVIDIA GeForce GTX 1080 GPU |
Y |
==SANet:17_CVPR_(SANet) Structure-Aware Network for Visual Tracking==
- 2017年5月1日发表CVPR
- 采用RNN+CNN的架构
- 可能是因为效果做的比MDNet还要好把,虽然也很耗时
方法 |
dataset |
帧率fps |
机器配置 |
是否Deep Learning |
|
TC-128、OTB100、VOT2015 |
1 |
3.7 GHz Intel i7 Core and a NVIDIA GTX TITAN Z GPU |
|
==DRLT:17_arXiv prePrint_(DRLT)_Deep Reinforcement Learning for Visual Object Tracking in Videos==
- 2017年1月30日提交到arXiv CVPR,4月10日修改
- 提出一种 convolutional recurrent neural network model, 可以学习到单帧图像的空间表示 以及 多帧图像之间的时序上的表示
- 端到端的进行训练的 deep RL algorithm,模型完全是 off-line的
- 模型构成:CNN 特征提取部分(YOLO)+RNN(LSTM) 历史信息构建部分+DEEP-RL模块(第一个用上RL)
- 有tensorflow源码
- 在30 challenging and publicly available video sequences 和 8 个tracker比较
方法 |
dataset |
帧率fps |
机器配置 |
是否Deep Learning |
DRLT |
30 challenging and publicly available video sequences |
45 |
NVIDIA GTX 1080 GPU |
Y |
数据源 |
 |
 |
CA-CF & BACF (利用背景信息,框架性通用改进)
- 2017年CVPR(oral)
- 出发点是对基于相关滤波的算法进行的框架上的改进,所有用相关滤波的算法都可以套用,牺牲fps,带来显著的性能提升,好文章,可以借鉴!
- 第二张图是对视频按照每个算法的真实速度进行降采样后的跟踪效果。可以看到用了CA进行改进后的staple效果是最好的
- 作者除了HCFT [2] (2015 ICCV),比较的都是比较传统的算法,没有与别的用了CNN特征的算法进行比较
方法 |
dataset |
帧率fps |
机器配置 |
是否Deep Learning |
CA-CF |
OTB-100 |
|
Intel Xeon CPU E5-2697 2.6GHz, 256GB RAM) using MATLAB |
– |
数据源 |
 |
 |
==BACF:17_CVPR_(BACF)_Learning Background-Aware Correlation Filters for Visual Tracking==
- 2017年3月14号发表到arXiv CVPR
- 扩大了循环矩阵采样的区域(样本数量增加),并且在每个样本上裁剪出了有用的样本区域(样本质量变好)
- 均在CPU上运行,效果优于大多数传统方法,平均帧率35.3;
- 效果比CCOT稍微好一点,但速度176倍
方法 |
dataset |
帧率fps |
机器配置 |
是否Deep Learning |
BACF |
OTB-50、OTB-100、TC129、60 challenging videos of VOT-2015 |
35.3 |
Intel Core i7 running at 2.40 GHz |
N |
ACET & Deep-LK (优于C-COT or MDNet, 且CPU实时)
==ACET:17_arXiv prePrint_(ACET)_Active Collaborative Ensemble Tracking==
- 2017年4月28提交到arXiv CVPR
- 测试数据集只有OTB-50,但Performance优于C-COT,且CPU实时。
方法 |
dataset |
帧率fps |
机器配置 |
是否Deep Learning |
ACET |
OTB-50 |
37.16 |
P-IV PC at 3.5 GHz, with a Mathlab/C++ implementation |
N |

p.s.
illumination and scale variations (IV, SV), in- and out-of-plane rotations (IPR, OPR), fast motion and motion blur (FM, MB),
deformations and low-resolution (DEF, LR), occlusion and
shear problem (OCC, OV), and background clutter (BC)
==Deep-LK:17_arXiv prePrint_(Deep-LK)_ for Efficient Adaptive Object Tracking==
- 2017年5月19提交到arXiv
- 用AlexNet提特征
- 在25 challenging videos of the VOT14 上达到75fps(GPU)
- 在Nfs Video上优于MDNet,但速度提高30倍(CPU)到38倍(GPU)
- 对比的方法中,只有SRDCF和FCNT效果与MDNet持平,且二者fps差不多,约为MDNet的5倍
- CPU下fps为100,只比GOTURN低55.3,但效果好10.4个点
方法 |
dataset |
帧率fps |
机器配置 |
是否Deep Learning |
Deep-LK |
VOT-2014、Nfs Video |
20.7(CPU),75-100(GPU) |
未指明 |
Y |
LMCF & Vision-based (速度提升,但性能提升不明显CPU实时)
==LMCF:17_CVPR_(LMCF)_Large Margin Object Tracking with Circulant Feature Maps==
- 2017年5.15发表到arXiv CVPR
- 相同机器下,CCOT 0.25fps,LMCF 10fps
- 性能略好于Staple,速度比SiamF和HCF比较,速度更快
方法 |
dataset |
帧率fps |
机器配置 |
是否Deep Learning |
LMCF |
OTB-2013、OTB-2015 |
LMCF 80 & DeepLMCF 10 |
LMCF with a PC with a 3.60 GHz CPU and DeepLMCF with a tesla k40 GPU |
Y |
数据源 |
 |
==Vision-based:17_arXiv prePrint_(NULL)_Vision-based Real-Time Aerial Object Localization and Tracking for UAV Sensing System==
- 2017年3月19日提交到arXiv CVPR,只测试了15个较难的数据集,而且只和15年之前的方法进行比较,
- CPU速度达到141.3fps
方法 |
dataset |
帧率fps |
机器配置 |
是否Deep Learning |
Vision-based |
选取了15个视频 |
141.3 |
in C++ with OpenCV 3.0.0 on a PC with an Intel Xeon W3250 2.67 GHz CPU and 8 GB RAM |
N |
