【Tracking 系列:二】GOTURN|Learning to Track at 100 FPS with Deep Regression Networks
基于回归的SOT算法
可以跟踪未见过的类别样例
FPS高
Motivation
只关注单一目标,物体运动是连续的,使用相邻帧回归位置
Network
- 两个输入分别过5层conv ,然后将feature concat
- 再过3层4096维的FC(包含 ReLU 和 Dropout),最后连接到一个输出为4的FC分别对应中心点x、y、w、h
其主要步骤是:
- 拿到上一帧图像以及我们要跟踪的目标在上一帧中的box position;
- 按照得到的box在上一帧和当前帧上裁剪出两倍于box大小的patch;
- 将两个patch输入到conv中,并通过fc来对特征进行综合,以预测当前帧中target box的位置。
注意,网络中的conv是在ImageNet预训练得到的,并且在这里不会再进行更新,只有fc才会被训练。
Dataset
视频+静态图像
静态图像用了个 数据增广的 trick
数据增广
- 将静态图片中待跟踪的object放在中间并框定区域(相当于作为t-1帧的region)
- 将整张图做形变当做第t帧来跟踪上一帧中的目标
Experiments
两个跟踪指标:Acurracy和Robustness
Thoughts
快速移动目标,增大搜索空间,或许可以
cnn参数 还有调参空间