论文浏览(40) Video Action Transformer Network
0. 前言
- 相关资料:
- 论文基本信息
- 领域:时空行为检测
- 作者单位:卡耐基梅隆大学 & DeepMind
- 发表时间:CVPR 2019
1. 要解决什么问题
- 就是想把 Transformer 的思路引入时空行为检测中。
- 判断人的行为之所以困难,有一步分原因在于行为类别需要依赖于目标人物周边的人或物。
2. 用了什么方法
- 本文提出的结构如下图所示
- 网络结构主要分为两个部分
- Trunk:即特征提取,输入64帧图像,使用在Kinetics-400上预训练的I3D模型作为backbone提取特征。
- Tail(这个名称是上面源码中给出的),主要就是以Trunk中的特征作为输入:
- 取Trunk的输出特征作为RPN输入,构建proposals。
- 从源码看,好像RPN的输入不是中间帧,而是Trunk的输出。
- 对RPN生成的每个proposal执行Tx Head中的操作。
- 由三个Tx Head组成。
- 每个Tx Head的结构如上图中的 Tx Unit 所示。
- 为什么上图右上方绿色框中有6个Tx?
- 我不太清楚,猜测是每个Tx其实有两个输入,即下图中的RoIPool这一路,以及Key-Value这一路。
- 猜测是3组
- 取Trunk的输出特征作为RPN输入,构建proposals。
- QPr有两种实现方式
- HighRes:high resolution,通过卷积实现,最终得到128维向量。
- LowRes:直接通过 spatially avg pool 实现。
- Tx Unit
- 整体输入数据是RoIPool的结果。
- q路输入是RoIPool后中间帧的特征。
- key-value路输入是RoIPool后的特征。
- FFN是普通的多层感知机。
- 如何理解 Tx Unit 结构使用了人周围信息(context information)?
- 对比I3D Header(这个结构没有使用到context信息)
- I3D Head与Tx Head的区别:
- I3D最终提取的特征是基于原始特征图的ST-RoiPool的结果。
- Tx Head提取的特征,是在RoIPool的基础上,添加了Transform结构,能够提取更多context信息。
- 可以认为,I3D的context信息虽然有,但不多。Tx Head是在I3D Head的基础上通过Transform结构提取更多context信息。
- 对比I3D Header(这个结构没有使用到context信息)
3. 效果如何
- 在拥有gt person bboxes的情况下:
- 与SOTA对比
4. 还存在什么问题&有什么可以借鉴
-
这个其实还挺想尝试一下的,不过没有源码,有机会可以复现一下。