您的位置: 首页 > 文章 > 论文浏览(21) SCSampler: Sampling Salient Clips From Video for Efficient Action Recognition

论文浏览(21) SCSampler: Sampling Salient Clips From Video for Efficient Action Recognition

分类: 文章 • 2023-12-25 20:40:09

文章目录

0. 前言
1. 要解决什么问题
2. 用了什么方法
3. 效果如何
4. 还存在什么问题

0. 前言

相关资料：
- arxiv
- github
- 论文解读，项目网页，视频值得一看
论文基本信息
- 领域：行为识别
- 作者单位：FAIR
- 发表时间：ICCV2019 oral

1. 要解决什么问题

普通行为识别数据集一般都是使用 trimmed video，其中包含一个待检测的动作。
现实世界中的真实情况，与普通数据集完全不同：
- 待检测的视频往往比较长（如几分钟，属于 untrimmed video）。
- 在较长时间的视频中，有用的视频片段持续时间较短，无用的的视频片段很多。
行为识别模型现状
- 大多数行为识别模型都需要输入一个定长的帧序列。
- 视频分类一般也就是分为若干个clip，分别进行分类后求平均。对于短视频来说，这种方法还是非常合理的。但对于长视频（如大于1小时）分类来说，这种方法就非常不合理了。

2. 用了什么方法

提出了SCSample(Salient Clip Sampler)
- 基本思路就是选择长视频中有效的clip分别计算预测并求平均，忽略一些无效的clip。
Sampler的目标函数
- action classifier：就是作为分类器来训练。
- saliency ranker：因为看过 relative attributes，所以这一部分看起来很熟悉。
Sampler使用的结构（没细看）
- Visual Sampler
  - 大概就是利用MPEG-4或H264编码后的结果作为输入。
  - 编码后的视频分为关键帧以及关键帧后续的motion displacement (MD) 与 RGB-residual (RGB-R)。
  - 网络结构就用2D CNN即可，如resnet18，shufflenet等。
- Audio sampler
  - 对音频进行处理。

3. 效果如何

在Sports1M上性能有较大提升（提升了7%），在Kinetics上倒是提升并不明显。
除了accuracy上的提升外，训练时间也减少了很多（特别是在Sports1M上）
具体结果如下图所示

4. 还存在什么问题

这个思路是用在对 untrimed video 进行 action recognition 上，也只能用在 offline 应用上。不知道online方面有什么能够参考的。