视频自监督二. VTDL: Video-based Temporal Discriminative Learning
视频自监督二. VTDL: 时序Discriminative
鉴于目前视频自监督大多数文章不开放代码/开放代码也不能复现的怪象, 我们开源了自己的代码,包括Logs/Trained Model
延续着之前视频自监督一中Intra-video Mixup 的工作,我们把这种augmentation的思想继续拓展了一下,提出了一个新的VTDL框架。在视频自监督中做到了很高的效果。
Pipeline
Time derivative 是传统行为识别中非常重要的measurement, 我们想让网络也保持对derivative的敏感性,具体实现如下:
最终的TCA具体实现形式如下:
生成的Triplet可视化如下所示:
Temporal-Discriminative Loss
从Triplet Loss和 Contrastive Loss 出发, 构造完Triplet之后,我们同样引入其它video做为negative, 整个loss实现如下。
结果
在引入Temporal Discriminative Loss 和 TCA之后,我们的方法在HMDB51上可以达到52.9的准确度。
在使用Kinetics 作为自监督数据集时,我们发现在几千个样本的情况下,VTDL的效果甚至好于全监督方法。 当样本量超过1w时,自监督带来的收益逐渐稳定。
可视化
最后我们视化了一些生成的样本