论文浏览(22) TEINet: Towards an Efficient Architecture for Video Recognition
0. 前言
1. 要解决什么问题
- 行为识别中的老问题:
- 3D CNN 可以对时间进行建模,但参数量太大,需要大量算力。
- 2D CNN 参数少、计算量小,但无法直接对时间进行建模。
2. 用了什么方法
- 首先介绍论文里经常出现的两个概念:
- 从直观上看,视频中的时间结构(temporal structure)可以从两个方面来帮助解决行为识别问题,分别是 motion information 与 temporal evolution of visual features。
- motion information 字面意思就是动作信息。相对的就是“静态”信息。
- 举例来说,一个视频中的每一帧都有“静态”信息,而每一帧没有动态信息,要将帧连接起来才有动作信息。
- 2D CNN获取不到动作信息。
- 行为识别模型的目标就是对 motion information 进行高效建模。
- 视频中有许多冗余信息,所以需要进行建模,得到类似关键帧信息。
- 后者按我理解就是指的相邻帧中的变化信息,即 temporal context(时间上下文)信息。
- 提出了 Temporal Enhancement-and-Interaction (TEI Module) 来进行行为识别。
- 提出了一种新的结构,用来替代普通bottleneck结构,如下图所示。
- 新结构分为两个部分,MEM与TIM,下面会分别介绍。
- MEM(Motion Enchanced Module)
- 利用一个注意力模型,增强 Motion-related 特征。
- 输入就是相邻的两帧。注意,这里所谓的“相邻”,指的是采样后的相邻。
- GAP指的是全局池化,即global average pooling。
- TIM(Temporal Interaction Module)
- MEM中提取的特征是比较global的temporal信息,但缺少比较local的temporal信息。
- 所谓local temporal信息,感觉就是相邻帧的信息。
- 用于补全 temporal context 信息。
- 输入是若干MEM结构的concat。
- 进行的操作是 channel-wise convolution,公式如下
- 其中 是
CxTxHxW
的特征图。 -
是
3x1x1
的结构 - TSM 可以看做是特殊的 channel-wise convolution
- TEI Module结构如下
- TEI 网络,直接将第一章图中的结构替换掉ResNet block结构。
3. 效果如何
- Something Something v1/V2 上的测试
- 论文提出的方法当然是计算量少且效果好啦
- Kinetics上主要与TSM比较,计算量少且性能高
- 虽然SlowFast结果好,但参数量太高啦
4. 还存在什么问题
-
论文没开源,自己实现感受一下。
-
有个问题,FLOPs少了,那运行时间呢。
-
用在resnet上,不知道换个backbone是什么效果。