2020ECCV VSR Video Super-Resolution with Recurrent Structure-Detail Network

Video Super-Resolution with Recurrent Structure-Detail Network

1.总结

作者提出的网络将输入分成了结构和细节两部分，这些部分被送入到由几个proposed two-stream struct-detail模块。另外，引入了自适应隐藏层模块，允许当前帧可以有选择地使用来自隐藏层状态的信息，可以增强对外观变化和累积错误的鲁棒性。
分析比较：
以前VSR的方法时通过显式的运动的那个补偿来实现，先通过计算参考帧和邻帧的光流，然后对齐做超分。但是密集光流的计算是有挑战性同时很消耗世家的。不准确的光流估计会导致伪影。
dynamic upsampling filters 和progressive fusion residual blocks探索flow-free运动补偿，可以阻止了繁重的运动估计部分并且效果不错。但是对邻帧有比较冗余的计算。
作者基于结构和细节组件不仅在高分辨率重建中遭受不同的困难，而且还以其他方式从其他框架中受益的假设将网络设计成两部分。另外，还计算当前帧和隐藏状态之间的相关性，以自适应地使用隐藏状态下的历史信息，以提高性能并减少错误累积的风险。

2. Method

2.1 Overview

问题定义：
给定一组低帧视频序列 { I 1 : N L R } , N > 2 \{I_{1:N}^{LR}\}, N>2 {I1:NLR},N>2，VSR的目标是产生对应的高帧的频序列 { I ^ 1 : N H R } \{\hat I_{1:N}^{HR}\} {I^1:NHR}。
作者将输入信息分成了结构信息和细节信息。在训练过程中两种信息在提议的SD块中相互交互，这不仅可以增强每个帧的结构，而且还可以恢复丢失的细节。为了对补偿信心充分应用，作者将hidden state作为history dictionary，并采用这个dictionary来满足当前帧。这使我们能够突出显示潜在的有用信息并消除过时的信息。网络总体结构如图所示。
2020ECCV VSR Video Super-Resolution with Recurrent Structure-Detail Network

2.2 Recurrent Struction-Detail Network

Recurrent unit
每一帧可以分解成结构和细节两部分，结构组件对图像中的低频信息以及帧之间的运动进行建模。细节租界捕获了高频信息和表观细微的差异。这两部分在高分辨率重建有不同的困难，从其他帧获取有益的部分也不同，所以分开处理。
首先通过bicubic下采样和上采样操作从 I t L R I_t^{LR} ItLR提取结构信息 S t L R S_t^{LR} StLR， D t L R D_t^{LR} DtLR是通过计算 I t L R I_t^{LR} ItLR和 S t L R S_t^{LR} StLR得到。
D分支专注于从当前帧的过去帧中提取补充细节，而S分支专注于增强当前帧中存在的边缘和纹理。
Structure-Detail block
2020ECCV VSR Video Super-Resolution with Recurrent Structure-Detail Network
SD block不仅专注于每个组件，而且还促进了结构和细节组件之间的信息交换。

2.3 Hidden State Adaptation

hidden state期望能够对场景外观如何随时间变化，包括结构和细节进行建模。
文章还提出了Hidden State Adaptaion(HSA)模块，对于每一个隐藏层，如果和当前帧有相似的appearance,则应突出显示；否则，如果看起来非常不同，则应将其抑制。
有了这个模块，可以仔细选择之前的帧的有用信息。显出了外观急剧变化和错误累积的影响。作者为当前帧中的每个位置生成空间变量并采样特定的过滤器，并使用这些过滤器计算它们与隐藏状态的每个通道中对应位置的相关性。
2020ECCV VSR Video Super-Resolution with Recurrent Structure-Detail Network

2.4 Loss functions

作者是采用了三个loss,分别用于structure component， detail component， whole frame。
2020ECCV VSR Video Super-Resolution with Recurrent Structure-Detail Network
使用Charbonnier loss

3. Experiments

训练数据集使用了Vimeo-90K，有90K 7-Frame的视频段，包含了不同的运动和不同的场景，其中7K用于测试。
训练的时候HR图像时裁剪成256*256大小。通过高斯模糊和四倍降采用得到LR。
测试数据集用了Vimeo-90K-T, Vid，UDM10