【Tracking 系列:一】Siamese-FC|Fully-Convolutional Siamese Networks for Object Tracking
滑窗分类
SOT早期的工作
Siamese-FC, 对单目标来做跟踪,论文中通过计算两个图像patch之间的相似度,来定位物体,通过多次rescale 输入图片来实现多尺度物体的跟踪。
Method
- 网络整体分两个分支,两个分支使用 相同的卷积 (siamese 的意思)进行特征抽取
- 第一个分支抽取 目标object(z)的feature A
- 第二个分支抽取 待搜索图片(x)的feature B
- cross-correlation
利用抽取的feature A作为卷积核在B上进行卷积,这样最后得到的score map实际上就是待搜索图片特征B与目标object patch特征A的相似度。而score map上这个点的取值就可以理解为原图中这块区域和目标object之间的相似度,那么最后相似度最高的点就被定位为目标object在当前帧上面的位置。
ϕ(.)是经过卷积操作分别提取 z 和 x 的特征
g(.)是将两个特征图,经过cross-correlation来获得相关性,即用卷积模拟相关滤波,得到响应特征图。
training
至于具体训练的时候论文中也提到了一些细节,比如正负例的定义:
- score map中落在中心半径R范围内的点被定义为正例label为1,其余为-1
- 输出的score map会利用cosine window来抑制距离中心比较远的点
- 多尺度物体的检测则是直接通过rescale输入图片来实现的。
Network
AlexNet
Result
Thoughts
相当于滑窗分类。
从分类的角度来做位置的定位的
对于宽高比无法做出响应,影响精度上限
online-tracking的通用劣势,对初始化的框非常敏感