Tracking by Instance Detection: A Meta-Learning Approach

引言

现有的跟踪器基本上都是使用tracking by detection的思路,检测和跟踪的区别在于检测是多分类问题,而跟踪是二分类问题,但是二分类指的是前景和背景,理论上跟踪应该是跟踪任意类别的物体。那么由多分类检测迁移到任意类(二分类)的跟踪基本上三个分支,siamese系列:通过模板匹配的思想进行二分类,为了解决尺度问题引入了检测中的RPN,文章代表:SiamRPN,DaSIamRPN,SIamMask,SIamRPN++等等,最近又新出了一系列anchor-free的文章:SiamCAR,SiamBAN,SiamFC++,Ocean等等,这些文章共性是先使用孪生网络进行模板匹配,然后使用检测里面的东西进行classification and regression。第二个分支是Atom,Dimp系列(没有研读,不是很了解)。第三个分支我认为应该是域自适应性的文章,比如MDNet使用多域分支解决任意类的问题,但是每次使用的时候都要使用第一帧来学习新的全连接层的参数来适应新的域(为什么只更新全连接层?全连接用于分类),在线微调+长短时更新,速度相比较其他很慢,meta-tracker使用元学习的思想进行few-shot learning s适应新的域,测试时候一次迭代即可。但是MDNet还是存在模型漂移,尺度回归,过拟合,速度慢等问题。既然目标跟踪基本上基于检测,能否直接改造检测器,让检测器由固定类别迁移到任意类别的二分类,最近有几篇文章paper list做了这样的事,今天这篇文章也做了同样的事,本文做的简洁漂亮。分解来看:元学习(MAML)+目标检测,使用元学习改造目标检测器进行域自适应的二分类。性能nice,速度40FPS,如果换个更SOTA的检测器性能应该还会进一步提升。
Tracking by Instance Detection: A Meta-Learning Approach

使用MAML学习一个实例检测器

改造检测器的关键在于当给一个新的instance,也就是一个新的视频域时候,如何使用第一帧的信息来获取一个好的初始化权重使用当前目标域。MAML元学习恰好是实现这一目标有效的方式,接下来介绍下MAML具体的形式:给予一个video clip Vi , 收集一系列的训练样本Di-S 支持集,detector model define h ( x ; θ 0 ) h(x;\theta_0) h(x;θ0) x是输入图片, θ 0 \theta_0 θ0是检测器的参数,第一步设置一个k-step的梯度下降算法公式如下:
Tracking by Instance Detection: A Meta-Learning Approach
公式(1)叫做 innerlevel optimization, 然后为了评估检测器训练后的泛化性能,在同一个视频序列中收集样板集Di_t作为目标集,计算目标集的损失但是不进行梯度下降,公式如下:
Tracking by Instance Detection: A Meta-Learning Approach
总的目标是为任意的视频域找到一个合适的初始化状态 θ 0 \theta_0 θ0,公式如下:
Tracking by Instance Detection: A Meta-Learning Approach
具体的流程如图所示:
Tracking by Instance Detection: A Meta-Learning Approach
和其他直接使用MAML的不同作者在这里为了稳定训练,增强检测器的能力,对原始的MAML算法做了如下修改。

Multi-step loss optimization

MAML++在 inner-level GD的每一步之后都使用参数,以最小化目标集上的损失,而不是只使用最后一步之后的参数。公式记为:
Tracking by Instance Detection: A Meta-Learning Approach

Kernel-wise learnable learning rate

在MAML中学习率 α \alpha α在 inner-level optimization是一个预定义的常数,MetaSGD为模型中的每个参数指定一个可学习的学习速率。表达为:
Tracking by Instance Detection: A Meta-Learning Approach

Retina-MAML and FCOS-MAML

Tracking by Instance Detection: A Meta-Learning Approach
Tracking by Instance Detection: A Meta-Learning Approach
Tracking by Instance Detection: A Meta-Learning Approach

Tracking by Instance Detection: A Meta-Learning Approach

实验结果

Tracking by Instance Detection: A Meta-Learning Approach

Tracking by Instance Detection: A Meta-Learning Approach
Tracking by Instance Detection: A Meta-Learning Approach

Tracking by Instance Detection: A Meta-Learning Approach
具体细节参考链接