视频自监督二. VTDL: Video-based Temporal Discriminative Learning

视频自监督二. VTDL: 时序Discriminative

paper

鉴于目前视频自监督大多数文章不开放代码/开放代码也不能复现的怪象, 我们开源了自己的代码,包括Logs/Trained Model

code

延续着之前视频自监督一中Intra-video Mixup 的工作,我们把这种augmentation的思想继续拓展了一下,提出了一个新的VTDL框架。在视频自监督中做到了很高的效果。

视频自监督二. VTDL: Video-based Temporal Discriminative Learning

Pipeline

Time derivative 是传统行为识别中非常重要的measurement, 我们想让网络也保持对derivative的敏感性,具体实现如下:

视频自监督二. VTDL: Video-based Temporal Discriminative Learning

视频自监督二. VTDL: Video-based Temporal Discriminative Learning

最终的TCA具体实现形式如下:
视频自监督二. VTDL: Video-based Temporal Discriminative Learning

生成的Triplet可视化如下所示:
视频自监督二. VTDL: Video-based Temporal Discriminative Learning

Temporal-Discriminative Loss

从Triplet Loss和 Contrastive Loss 出发, 构造完Triplet之后,我们同样引入其它video做为negative, 整个loss实现如下。
视频自监督二. VTDL: Video-based Temporal Discriminative Learning

结果

在引入Temporal Discriminative Loss 和 TCA之后,我们的方法在HMDB51上可以达到52.9的准确度。
视频自监督二. VTDL: Video-based Temporal Discriminative Learning

在使用Kinetics 作为自监督数据集时,我们发现在几千个样本的情况下,VTDL的效果甚至好于全监督方法。 当样本量超过1w时,自监督带来的收益逐渐稳定。
视频自监督二. VTDL: Video-based Temporal Discriminative Learning

可视化

最后我们视化了一些生成的样本

视频自监督二. VTDL: Video-based Temporal Discriminative Learning