论文浏览(16) A Novel Online Action Detection Framework from Untrimmed Video Streams
0. 前言
- 相关资料:
- arxiv
- github
- 论文解读
- 论文基本信息
- 领域:在线行为检测
- 作者单位:高丽大学
- 发表时间:2020.3
1. 要解决什么问题
- 在Untrimmed Videos中做Online Action Detection主要的挑战在于:
- 在Untrimmed Videos中,可能会发生的动作不止一种。
- 在Online的限制下,只能获取当前以及过去的数据。
2. 用了什么方法
- 提出一种Online Action Detection的解决方案。
- 使用了 future frame generation,预测未来帧作为后续模型输入。
- 构建 Proposal Representation 分支,用于判断当前输入是否是action,只用来区分 action 与 background。
- 类似于 faster rcnn 中的RPN阶段。
- 构建了 Action Recognition 分支用于,用于判断行为类别以及是beginning phases还是end phases。
- 将每一类都分为 beginning phases 和 end phases 两个阶段,具体怎么划分
- 论文中说是AR分支是用来学习 Traits (特点,即每个行为开始/结束时候都有其固定的特点)与Temporal Order(猜测意思就是预测动作的起始/结束阶段)。
- 构建了分支,即future frame generation,用于预测未来帧。
- 构建detection network,通过PR/AR提取的特征,在做Temporal的特征融合时使用了LSTM。
- AR/PR 模型结构如下,感觉就是很普通的3D网络
3. 效果如何
- 给出了与一些offline的temporal action detection方法的结果对比,明显是不如这些offline的方法。
4. 还存在什么问题
-
论文自己就给出了存在的问题
- 需要大量计算资源,整体模型有174M的参数。
- BP时受限,因为显存有限,不能同时放入所有参数。
- 依赖future frame预测的性能。