CVPR 2016 SINT:《Siamese Instance Search for Tracking》论文笔记

理解出错之处望不吝指正。

本文模型叫做SINT，和Siamese-fc一样，通过相似学习解决跟踪问题（这篇论文的发表时间比Siamese-fc早）。模型的整体结构如下：

模型分为两路，左侧为“Query stream”（接收第一帧的bbox），右侧为“Search stream”（接收第t帧的candidate boxes），在跟踪的过程中，根据下式选出得分最高的candidate box作为跟踪结果。

CVPR 2016 SINT:《Siamese Instance Search for Tracking》论文笔记

函数 CVPR 2016 SINT:《Siamese Instance Search for Tracking》论文笔记表示对于输入进行特征提取、池化、正则化之后得到的数据表示形式。

模型的训练集和验证集选择的是ALOV。训练集合包括60000对帧，每一对帧中包括128对bbox。验证集包括2000对帧，每对包括128对bbox。

训练过程就是最小化损失函数：

CVPR 2016 SINT:《Siamese Instance Search for Tracking》论文笔记

式中 CVPR 2016 SINT:《Siamese Instance Search for Tracking》论文笔记代表训练对是正样本对or负样本对，如果是正样本对，则，否则。

论文中提到，跟踪问题作为一个定位问题，不应使用过多的max pooling，过多的max pooling会导致定位不准确。但是max pooling的优势在于对于输入的局部形变具有不变性，也不能弃之不用，故设计为两个max pooling层。

首先是网络结构的选择，下图是在OTB-2013上的测试结果：

CVPR 2016 SINT:《Siamese Instance Search for Tracking》论文笔记

作者通过实验发现，max pooling对于Siamese Alexnet是不必要的：

CVPR 2016 SINT:《Siamese Instance Search for Tracking》论文笔记

下图是模型在OTB-2013上的测试结果（其中SINT+是基于SINT上使用更好的采样策略和光流附加模块的一个模型）：

CVPR 2016 SINT:《Siamese Instance Search for Tracking》论文笔记