论文浏览(1) TAM: Temporal Adaptive Module for Video Recognition
0. 前言
1. 要解决什么问题
- 深度学习领域,视频相关研究比图像相关研究少/慢一些。
- 视频相比于图像,其主要区别在于,除了要考虑空间特征,还需要考虑时间特征。
- 在行为识别领域,要解决的主要问题就是 高效提取视频的时空特征,这也就是本文的目标。
- 现在提取视频特征的主流方法是使用3D卷积,但3D卷积存在针对性差、计算量高的缺陷。
- 对3D卷积的优化主要集中在两个研究方向:
- 基于2D卷积的时间特征提取模块。
- 设计专门用于时间特征提取的模块(而不是向3D卷积那么粗糙的方法)。
2. 用了什么方法
- 提出了一种新的时间自适应结构(temporal adaptive module,TAM)。
- 这种模块的关键在于,对于不同的视频有不同的处理,adaptive temporal kernels。
- 在看了下面的网络结构后发现,在TAM模块内,卷积核会改变,特征图也做了处理。
- Attention真是哪里都能用啊……
- TAM模块结构示意图如下(这张图TAM并不直观,还是下面一张图显示的TAM直观):
- TANet结构示意图如下:
- local branch 用于提取短期信息,global branch用于提取长期信息。
3. 效果如何
- 在 Kinetics-400 上达到SOTA
- 在Something-Something上也到SOTA
4. 还存在什么问题
-
说是在同样FLOPs下性能更好,但测试基础是ResNet,等代码开源了之后想尝试下在MobileNet等网络上是否有效果,迁移到移动端有没有可能实现。
-
实现细节等待源码。