Learning Spatial-Aware Regressions for Visual Tracking 阅读笔记

文章初步概览

传统KRR定义：；
采用对偶技巧进行求解，则目标解wt可以表示为：
则原优化问题变为求解优化问题：
作者认为传统的核方法的定义没有考虑目标本身的空间关系，因此在目标跟踪问题中限制了跟踪器的性能；
本文作者提出新的适用于目标跟踪问题的核定义方法：即将sample1和sample2进行切割，假设都切割成M份，通过M份之间的相似性共同确定sample1和sample2的相似性；
新核计算数学表示：，其中定义了βm,n用于对不同块之间的相似性进行加权；
新核定义优势1：通过引入βm,n可以在学习过程中自适应地关注可靠性大的区域；
新核定义优势2：计算sample1和sample2的相似性过程中考虑了更多的相似pair，因此可以增加模型的判别力；
引入新核定义后，新KRR求解变为：；
上述求解表达式可以表示为矩阵的形式：其中；
通过上述求解后，对于新的样本，预测公式为：；
对于上述公式进行求解需要对α和β进行迭代求解，即通过得到α，通过β的梯度更新β，这个方法计算复杂度高；

文章不太直观，解释一下；
在H∗W的feature map上，目标大小为h∗w，密集采样后应该有(H−h+1)∗(W−w+1)个样本；
由于本文是将每个样本分成了9份，所以在H∗W的feature map上分别提取每个样本的第n份（n=1~9），每份都的与模块A中得到的wn（n=1 9）相卷积（猜测这里卷积的stride也应该为9）；
每个wn卷积层输出大小为：(H∗h+1)∗(W∗w+1)∗M；
最终卷积输出大小为：((H∗h+1)∗(W∗w+1)∗M)∗M；
通过上述过程便完成了B操作；

核心：在一个CNN层中学习带空间约束的卷积核，核心思想为每个卷积核仅关注目标的一个子部分；
训练：考虑到目标跟踪任务中样本数少，分别使用不同的网络结构训练和测试样本以防止过拟合，并且在训练过程中考虑样本的旋转；
得到搜索域的VGG16中conv4-3层特征，大小为46*46*512->经过第一个卷积层得到大小为46*46*100的输出->按照group卷积，经过第二个卷积层，得到46*46*100的输出->每4层输出作为一组相加得到46*46*25的输出->经过distance transform pooling后进行相加得到最终的response map；
带空间信息学习的CNN：思路很简单，如下公式对每个通道的滤波器Fc强制加一个Wc的mask，强行让其关注目标的某一个部分，这样学到的每个滤波器自然会关注目标的某一个部分，本文是将目标分成了25个部分进行专门学习；