TNT
论文链接:Exploit the Connectivity: Multi-Object Tracking with TrackletNet
1. 概述
如上图所示,TNT(TrackletNet Tracker)是一种性能优秀的跟踪器,其关键指标(MOTA、IDF1)都表现良好,且有不俗的抗FN能力。
关键技术:
- Tracklet-based Graph Model: 将 tracklet 作为顶点、将两 tracklets 间相似度(的减函数)作为边权的无向图,可以通过顶点聚类算法完成 “tracklet-to-trajectory” 过程;
- Multi-scale TrackletNet: 输入两 tracklets,输出其相似度,最大特点是用时域1D滤波器充分利用了 tracklets 的时态信息(temporal info);
- EG-IOU: 在做帧间detections关联时,使用 Epipolar Geometry(对极几何)对下一帧检测框做最佳预测,从而优化 IOU 算法;
关键能力:
- Graph Model 的设计可以充分使用时域信息、降低计算复杂度等;
- TrackletNet 作为一个统一(unified)的系统,将外观信息(appearance)和时态信息(temporal)合理地结合了起来;注意,传统的时态信息一般是 bbox 的位置、大小、运动等信息,而 TrackletNet 通过时域卷积池化等,挖掘了外观信息中蕴含的时态信息(即外观信息的时域连续性)
- EG 技术可以有效对抗相机运动带来的错误关联问题;
2. 总览
我用一张图大致总结了 TNT 整体的框架结构,见上图。
- 核心部分(粉色框):算法的核心是 Graph Model 的构建和聚类;Graph 的顶点来自 tracklets,边权代表两 tracklets 之间的关联损失(越小越相似);完成 Graph 的构建后,可以通过最小化全局损失的图划分算法,对 Graph 中的顶点进行聚类,每一个 cluster 即对应一个 target,将每个 cluster 中的 tracklet 进行连接(用线性插值不全缺少的detections)即得到所有的 object trajectories。
- 关键部分(橘色框):EG-IOU 和 TrackletNet 是本文中两个关键技术;EG用于优化 tracklets 生成过程中的 IOU 指标;TrackletNet 用于计算两 tracklets 之间的相似度。
- 训练部分(灰色框):训练时,detections 和 tracklets 需要用到训练数据,作者对其进行了数据增强;对 detections 进行了尺寸位置随机化;抽样 tracklets 时进行了随机划分和抽取,并保证正负样本均衡。
3. 详述
本部分更详细地介绍文中几种关键技术。
(1)Graph Model
- Vertex Set:利用 bbox 的坐标信息和外观信息将 detections 关联成 tracklets;坐标信息指(x, y, w, h);外观信息使用 FaceNet 生成512维独立信息;
- Edge Set:利用 TrackletNet 计算两 tracklets 的相似度,以此计算边权cost值;两个tracklets计算相似度首先需满足“不重叠且帧距离较小”的条件;
- Tracklet Clustering:以最小化全局边权损失维为目标函数,利用特定算法将图划分为各个连接子图,每个子图即对应一个目标的所有 tracklets,最后对其进行连接即可;
(2)Tracklet Generation
tracklet 需要使用坐标信息和外观信息用高阈值对 detections 进行数据关联,即 IOU 和外观相似度;而为了对抗相机运动,作者使用EG算法预测下一帧bbox,对IOU算法进行了改进。
简单来说,EG算法假设检测框在相邻帧之间静止或缓慢移动,且大小不变,并进行以下步骤:
- 利用相邻帧匹配的SURF特征点和RANSAC算法,计算出EG算法中的基础矩阵F(即上图中的红色极线);
- 设计损失函数,对 “下一帧预测框与极线间的坐标差” 、“预测框的尺寸变化” 进行了约束
- 基于损失函数,利用最小二乘最优化策略,得出下一帧最佳预测框
(3)Multi-Scale TrackNet
TrackNet 是一个精心设计的网络结构,输入两个 tracklets,输出其相似度,其主要有以下关键点:
- 特征维度:对于每一对儿 tracklets,输入其4D位置信息和512D外观信息,且按64D时域维度铺展开(两个tracklets可能只占64D时域空间的两小部分,tracklet-1从0维开始,两 tracklets 间的空隙用插值法填充,trackelt-2 后的空隙进行 zero-padding);
- 二元掩膜:为了更好地表征两 tracklets 的持续时间,在输入特征通道处又加了两个 binary mask 通道;
- 1D 滤波:三个Conv/MaxPool层使用了四种 1D filters,对所有特征仅进行时间维度卷积和下采样,从而计算特征的连续性;随着卷积的不断进行,感受野不断增大,从而可以获取更加全局的连续性信息;不同卷积核尺寸则侧重不同时域尺度的特征;
- 均值池化:三个 Conv 后接均值池化,对所有时域维度(8D)上的所有外观特征分别进行计算均值(加权投票),即最后每个通道每维时域上仅(4+1)维特征;
- 全连接层:最后对特征进行 concatenate 后,用两个 FC 层输出相似度得分;
- 另外,作者指出,经过网络精心的设计,可以防止小数据量引起的过拟合问题。
4. 其它
- 文章在第二部分Related Work中介绍了以下方面的相关研究:Graph Model based Tracking、Tracking by RNN、Tracking by Feature Fusion、End-to-End Tracking等;
- 文章在第五部分Experiments中介绍了以下方面的内容:Dataset、Implementation Details、Feature Map Visualization、Tracking Performance、Ablation Study等。
5. 结束
(日常交给作者来结束~)