MOT论文阶段性总结
第二周总结
Detect to Track and Track to Detect
贡献:
- 设计了一个架构同时进行检测和跟踪
- 提出了一种correlation feature用来表达物体的多帧出现进而提升tracking性能
- 用tracking的结果在video的层面上使detection的结果提升
方法:
2D detection and tracking 互相refine
Detect to track
-
对于每一帧来说:
利用 R-FCN 进行detection, 重点要搞懂什么是position-sensitive RoI pooling layer
, 方法可见: R-FCN 详解. 如果没兴趣也可以不看,知道是个前端检测器能检测出class, 回归出bounding box的尺寸就行.
RoI pooling layer的输入是卷积层输出的feature 和 , 实际这看着像一个网络,但是是sibling的结构, 只是画的简单罢了. -
对于帧间来说:
类似于FlowNet (corr版本) 的操作, 将两帧经由卷积提取的 feature 送入 RoI pooling layer 输出bbox的变换 .
有了前两步, 就可以构造一个 track (object tube), 定义一个 detection 为 , i 是 index, 参数分别对应中心点坐标, bbox 长宽和 classification 的概率. 类似定义一个 track 为 , 代表 t 时间的一个物体和它 bbox 的变换, 然后定义一个link得分:
其中, , 判定为1的标准是计算 与 和 的 IoU, 大于一个threshold (我的理解就是track到一起了).
Track to detect
最优化得分:
通过 Viterbi algorithm 可以得到 refine 后的 detection.
Tracking Objects as Points (CenterTrack)
贡献:
- point-based tracking
- 同样结合了detection和tracking (类似Tracktor)
- 效果sota
方法:
基于camera的 2D/3D tracking ( nuScenes 的 benchmark上见到了他的camera+LiDAR的版本, 文章没有介绍)
思想和 Tracktor的很类似, 直接利用检测器进行tracking的任务,文章里用的 CenterNet, 是作者的早期工作. 文章有个很重要的假设: 如果物体离开frame或者被遮挡后重新出现会分配个新的ID!! (原文: when an object leaves the frame or is occluded and reappears, it is assigned a new identity)(不知道后面的策略是否合理??)
CenterTrack思路上保持为Tracktor的风格, 方法上参考了optical flow, 和Detect to Track and Track to Detect的想法相似, 但是采用的是类似一种稀疏光流预测, 具体而言, 会预测一个offset, 通过真值的 displacement 来监督:
匹配策略是将这一帧中的这个物体匹配之前帧中最近的offset过以后的物体上(For each detection at position , we greedily associate it with the closest unmatched prior detection at position , in descending order of confidence .), 如果offset之后周围(由一个参数决定)没有物体,就认为这个物体是新的track.
该方法做了很多数据集上的实验,表现都很好, 3D tracking的实现是基于CenterNet的3D版本之上做的.
Track to Reconstruct and Reconstruct to Track (MOTSFusion)
贡献:
- 实现了一种 long-term tracking, 利用reconstruction来refine tracking任务
- 通过reconstruction获得物体的3D 运动信息,进而利用运动信息恢复检测丢失的情况
- 效果sota
方法:
多模态 2D/3D tracking 和 reconstruction 互相 refine
该方法由KITTI在CVPR2019上公布的新benchmark multi-object tracking and segmentation 得来
2D segmentation & Tracking: 从video中检测bbox并分割内部物体得到mask, 通过光流估计可以获得2D motion的连续性,从而generate一系列的short tracklets
3D Reconstruction Tracking: 对于一个刚性物体而言,一定会有一系列的pose变换使得这些来自不同视角的点云拼成一个连续的物体(consistent 3D reconstruction)
4D Dynamic Scene Reconstruction: 两个tracklet之间motion的连贯性决定tracklets是否是同一个物体并且是否应该被merge在一个track里