论文浏览(42) Action Genome: Actions as Composition of Spatio-temporal Scene Graphs


0. 前言

  • 相关资料:
  • 论文基本信息
    • 领域:时空行为检测
    • 作者单位:斯坦福大学
    • 发表时间:CVPR 2020

1. 要解决什么问题

  • 在计算机视觉中,我们将行为(actions or activities)作为一个完整的整体。
  • 但其实在认知科学(Cognitive Science)和神经学的研究中发现,人的行为被编码为一个 hierarchical part structures。

2. 用了什么方法

  • 提出了一个数据集(其实是在Charades的基础上进行再标注):
    • 将行为看作是 Action Genome(行为基因组)
    • 即,将行为分解为时空场景图(spatio-temporal scene graphs)。
    • 捕捉行为发生时,人与物体之间的关系。
  • 常见数据集对比
    • 论文浏览(42) Action Genome: Actions as Composition of Spatio-temporal Scene Graphs
  • 所谓关系,如下图所示
    • Charades中所谓的relation,指的是clip level的
    • Action Genome中的relation是 image-level 的
    • 论文浏览(42) Action Genome: Actions as Composition of Spatio-temporal Scene Graphs
  • 人周边物体有很多,参考下图
    • 论文浏览(42) Action Genome: Actions as Composition of Spatio-temporal Scene Graphs
  • 说是提出了一种结构 SGFB 来处理,没细看
    • 论文浏览(42) Action Genome: Actions as Composition of Spatio-temporal Scene Graphs

3. 效果如何

  • 通过Action Genome可实现普通Charades分类,few-shot任务以及Spatio-temporal scene graph prediction
    • 论文浏览(42) Action Genome: Actions as Composition of Spatio-temporal Scene Graphs
    • 论文浏览(42) Action Genome: Actions as Composition of Spatio-temporal Scene Graphs
    • 论文浏览(42) Action Genome: Actions as Composition of Spatio-temporal Scene Graphs

4. 还存在什么问题&有什么可以借鉴

  • 这数据集好是好,但感觉要用到实际应用中比较麻烦……需要后续研究下细节。