论文浏览(31) AR-Net: Adaptive Frame Resolution for Efficient Action Recognition

0. 前言

将输入帧的resolution作为变量，通过模型进行设置。
- 总体思想如下图所示：
主要工作：提出AR-Net模型，本模型使用一种可微分（即可以使用梯度下降更新参数）的方法来学习输入数据的尺寸。
模型总体结构如下图所示
- 模型可以分为两个部分：
  - policy network：由 feature extractor 和 LSTM 组成，得到每帧的尺寸。
  - backbone network：不同尺寸的frame由不同的backbone来提取特征。
    - 尺寸太小的图片也不用处理了，就当skip该帧。
policy network 的具体实现没有细看，记录一下大概的思路
- 设置一些不同尺寸的输入数据（应该是有一定数量的固定尺寸，目标是选择其中一个）
- 实现网络是特征提取+LSTM，LSTM应该是1对1，每次输入特征提取的结果来更新参数。
- 在选择结果时使用了 Gumbel Softmax，这部分应该是实现重点，没细看，等开源了可以研究下。
损失函数：
- 分类损失函数就是普通的交叉熵。
- 由于frame尺寸不一定，所以模型的GFOPS也不一定，有一个GFLOPS相关损失函数，形式为
- 我们希望确定图像尺寸的时候，skip更多frame，所以也设置了一个相关的损失函数（没细看）