论文浏览(21) SCSampler: Sampling Salient Clips From Video for Efficient Action Recognition


0. 前言


1. 要解决什么问题

  • 普通行为识别数据集一般都是使用 trimmed video,其中包含一个待检测的动作。
  • 现实世界中的真实情况,与普通数据集完全不同:
    • 待检测的视频往往比较长(如几分钟,属于 untrimmed video)。
    • 在较长时间的视频中,有用的视频片段持续时间较短,无用的的视频片段很多。
  • 行为识别模型现状
    • 大多数行为识别模型都需要输入一个定长的帧序列。
    • 视频分类一般也就是分为若干个clip,分别进行分类后求平均。对于短视频来说,这种方法还是非常合理的。但对于长视频(如大于1小时)分类来说,这种方法就非常不合理了。

2. 用了什么方法

  • 提出了SCSample(Salient Clip Sampler)
    • 基本思路就是选择长视频中有效的clip分别计算预测并求平均,忽略一些无效的clip。
    • 论文浏览(21) SCSampler: Sampling Salient Clips From Video for Efficient Action Recognition
  • Sampler的目标函数
    • action classifier:就是作为分类器来训练。
    • saliency ranker:因为看过 relative attributes,所以这一部分看起来很熟悉。
      • 论文浏览(21) SCSampler: Sampling Salient Clips From Video for Efficient Action Recognition论文浏览(21) SCSampler: Sampling Salient Clips From Video for Efficient Action Recognition
  • Sampler使用的结构(没细看)
    • Visual Sampler
      • 大概就是利用MPEG-4或H264编码后的结果作为输入。
      • 编码后的视频分为关键帧以及关键帧后续的motion displacement (MD) 与 RGB-residual (RGB-R)。
      • 网络结构就用2D CNN即可,如resnet18,shufflenet等。
    • Audio sampler
      • 对音频进行处理。

3. 效果如何

  • 在Sports1M上性能有较大提升(提升了7%),在Kinetics上倒是提升并不明显。
  • 除了accuracy上的提升外,训练时间也减少了很多(特别是在Sports1M上)
  • 具体结果如下图所示
    • 论文浏览(21) SCSampler: Sampling Salient Clips From Video for Efficient Action Recognition

4. 还存在什么问题

  • 这个思路是用在对 untrimed video 进行 action recognition 上,也只能用在 offline 应用上。不知道online方面有什么能够参考的。