EDVR: Video Restoration with Enhanced Deformable Convolutional Networks
论文:https://arxiv.org/abs/1905.02716
代码:https://github.com/xinntao/EDVR
该论文主要提出了两个模块:PCD对齐模块和TSA融合模块。
背景:
过去的视频恢复被视为简单的图像复原(视频和图像的处理还是有区别的),相邻帧的时间冗余没有充分利用。
PCD模块
金字塔级联和可变形模块(PCD,pyramid cascading deformable)
- 使用Deformable卷积在特征级别将每个相邻帧对齐到参考帧,从粗到细对齐,以处理大型和复杂运动。具体就是,使用金字塔结构,首先将较低尺度的特征和粗估计进行对齐,然后将偏移量和对齐特征传播到较高尺度,以方便进行精确的运动补偿。
- 在锥体对齐操作后,再级联一个额外的Deformable卷积,进一步提高对齐的鲁棒性。
之前的对齐方法:
- 显式估计参考帧与相邻帧的光流场来对齐,根据估计的运动场对相邻帧矫正;
- 通过动态滤波或可变形卷积实现隐式补偿。
注:PCD帧对齐是在特征层上使用可变形卷积从粗到细进行对齐。
TSA模块
时间和空间注意力融合(TSA,temporal spatial attention)
- 时间注意考虑参考帧与相邻帧间相关性,空间注意考虑单帧内部每个位置的特征。
- 根据加权,通过相关系数卷积来进行融合。
之前的融合方法:
- 使用卷积对所有帧进行早期融合;
- 采用递归网络逐步融合多帧;
- 时间自适应网络,动态融合时间尺度。
没有考虑到每个帧潜在视觉信息量,不同帧和位置对重建的信息量和益处并不相同。(考虑帧内部信息)
注:注意力同时应用于时间和空间,以强调后续恢复的重要特征。