CFNet

Paper : End-to-end representation learning for Correlation Filter based tracking
Code : official

摘要

本文的主要贡献在于将相关滤波器完美融入到了神经网络中，通过给出正向传播和反向传播的公式使得相关滤波器成为神经网络中可学习的一层。其他的结构继承自Siam-FC，从孪生神经网络和特征提取的结构来说没有什么创新，因此本文着重介绍CF block的形式和反向传播结果。作者发现，对于层数较多的CNN来说CF层的引入没有什么提升，而对于较少层次的CNN网络进行特征提取有较大的性能改善。

网络结构

CFNet
在CFNet中，Siamese Network 两个分支不是完全对称的，使用 $x$ 表示感兴趣的物体区域，使用 $z$ 表示更大的搜索区域，使用 $f$ 表示CNN网络进行特征图的生成，那么最后的score map 表示为

$h_{\rho,s,b}(x,z) = s\omega(f_\rho(x)) \otimes f_\rho(z) +b$

其中， $\rho$ 表示CNN的参数， $\omega$ 表示CF block， $s,b$ 用来调节score map 的取值范围，支持logistic 回归。

对于图像的预处理与Visual Object Tracking using Adaptive Correlation Filters 相同，都是点成cosine 窗来减缓边缘效应。

CF Block

形式化的表述CF Block ：假设 $w$ 表示CF Block的相关核， $x$ 为较大的搜索区域中对应大小的一块候选区域， $\otimes$ 表示相关操作，考虑加入L2正则项，有

$\arg \min_w \frac{1}{2n}||w\otimes x- y||^2+\frac{\lambda}{2}||w||^2$

使用Language 算法解有约束的最值问题，得到如下解

$\left\{\begin{matrix} \widehat k = \frac{1}{n} \widehat x^*\odot \widehat x +\lambda & \\ \widehat \alpha = \frac{1}{n}\widehat k^{-1}\odot \widehat y & \\ \widehat w = \widehat \alpha^* \odot \widehat x \end{matrix}\right.$

其中， $\widehat x,\widehat y,\widehat w$ 分别表示 $x,y,w$ 的频域形式

CFNet
根据计算图的结果，得到反向求导的结果为

$\left\{\begin{matrix} \widehat {\triangledown_{\alpha} l} = \widehat x\odot (\widehat {\triangledown_{w} l})^* \\ \widehat {\triangledown_{y} l} = \frac{1}{n}(\widehat k^{-1})^*\odot \widehat {\triangledown_{\alpha} l} & \\ \widehat {\triangledown_{k} l} = -(\widehat k^{-1})^*\odot \widehat \alpha^*\odot \widehat {\triangledown_{\alpha} l} \\ \widehat {\triangledown_{x} l} = \widehat \alpha \odot \widehat {\triangledown_{w} l} + \frac{2}{n} \widehat x \odot \textrm{Re}(\widehat {\triangledown_{k} l}) \end{matrix}\right.$
CFNet
CFNet
CFNet