CVPR 2016 SINT:《Siamese Instance Search for Tracking》论文笔记
理解出错之处望不吝指正。
本文模型叫做SINT,和Siamese-fc一样,通过相似学习解决跟踪问题(这篇论文的发表时间比Siamese-fc早)。模型的整体结构如下:
-
跟踪过程
模型分为两路,左侧为“Query stream”(接收第一帧的bbox),右侧为“Search stream”(接收第t帧的candidate boxes),在跟踪的过程中,根据下式选出得分最高的candidate box作为跟踪结果。
函数表示对于输入
进行特征提取、池化、
正则化之后得到的数据表示形式。
-
训练过程
模型的训练集和验证集选择的是ALOV。训练集合包括60000对帧,每一对帧中包括128对bbox。验证集包括2000对帧,每对包括128对bbox。
训练过程就是最小化损失函数:
式中代表训练对
是正样本对or负样本对,如果是正样本对,则
,否则
。
论文中提到,跟踪问题作为一个定位问题,不应使用过多的max pooling,过多的max pooling会导致定位不准确。但是max pooling的优势在于对于输入的局部形变具有不变性,也不能弃之不用,故设计为两个max pooling层。
-
实验
首先是网络结构的选择,下图是在OTB-2013上的测试结果:
作者通过实验发现,max pooling对于Siamese Alexnet是不必要的:
下图是模型在OTB-2013上的测试结果(其中SINT+是基于SINT上使用更好的采样策略和光流附加模块的一个模型):