论文浏览(21) SCSampler: Sampling Salient Clips From Video for Efficient Action Recognition
0. 前言
1. 要解决什么问题
- 普通行为识别数据集一般都是使用 trimmed video,其中包含一个待检测的动作。
- 现实世界中的真实情况,与普通数据集完全不同:
- 待检测的视频往往比较长(如几分钟,属于 untrimmed video)。
- 在较长时间的视频中,有用的视频片段持续时间较短,无用的的视频片段很多。
- 行为识别模型现状
- 大多数行为识别模型都需要输入一个定长的帧序列。
- 视频分类一般也就是分为若干个clip,分别进行分类后求平均。对于短视频来说,这种方法还是非常合理的。但对于长视频(如大于1小时)分类来说,这种方法就非常不合理了。
2. 用了什么方法
- 提出了SCSample(Salient Clip Sampler)
- 基本思路就是选择长视频中有效的clip分别计算预测并求平均,忽略一些无效的clip。
- Sampler的目标函数
- action classifier:就是作为分类器来训练。
- saliency ranker:因为看过 relative attributes,所以这一部分看起来很熟悉。
-
- Sampler使用的结构(没细看)
- Visual Sampler
- 大概就是利用MPEG-4或H264编码后的结果作为输入。
- 编码后的视频分为关键帧以及关键帧后续的motion displacement (MD) 与 RGB-residual (RGB-R)。
- 网络结构就用2D CNN即可,如resnet18,shufflenet等。
- Audio sampler
- 对音频进行处理。
- Visual Sampler
3. 效果如何
- 在Sports1M上性能有较大提升(提升了7%),在Kinetics上倒是提升并不明显。
- 除了accuracy上的提升外,训练时间也减少了很多(特别是在Sports1M上)
- 具体结果如下图所示
4. 还存在什么问题
-
这个思路是用在对 untrimed video 进行 action recognition 上,也只能用在 offline 应用上。不知道online方面有什么能够参考的。