【MOT】Tracking without bells and whistles
论文地址:https://arxiv.org/pdf/1903.05625.pdf
Abstract
不需要后处理,不需要单独训练Re-ID网络,只用检测网络完成
Pipline
1、Detector:首先用Faster R-CNN得到每一帧的detection results。并且用NMS处理。
2、Tracktor:如图1,通过回归 t-1 的bbox到 t 帧的新position来实现tracking(图中蓝色线路),比如用Faster RCNN,会用前一帧里的bbox来crop当前帧得到的feature做ROI pooling。这样ID很自然的传到下一帧,并且建立了trajectory。
3、需要解决的问题就是,什么时候tracking停止:(1)如果下一帧的得到的classification score低于某个阈值,也即可能object移除视野或者被其他非object遮挡(2)通过对所有剩余的Bt及其对应的score应用非最大抑制(NMS)来处理对象之间的遮挡,NMS会设置一个阈值。
4、对于新的targets,怎么初始化开始的bbox:图中红线,当 t 帧里一个detection和任何已有的trajectory的IOU低于一个阈值时,认为是一个新的开始。
以上就是网络本身的全部
为了提高性能,还会增加两个模块:
Motion model
对于之前假设两帧之间的object只偏移很小的说法,有两个情况会出现问题:large camera motion and low video frame rates,极端情况就是bbox from t-1在 t 不会有对应的object。所以我们也采用两种对策(有点先验的感觉),对于sequences with a moving camera,直接采用一个叫camera motion compensation (CMC)的模块,aligning frames via image registration using the Enhanced Correlation Coefficient (ECC) maximization。对于sequences with comparatively low frame rates, we apply a constant velocity assumption (CVA) for all objects
Re-identification
为了保证online track,采用了一个Siamese结构的short-term 的ReID。需要单独训练。就是把原本没有tracking的bbox拿出来取appearance feature,这一部分只针对那些被中断的track做