Fast Spatio-Temporal Residual Network for Video Super-Resolution
发表在CVPR2019。
针对的问题:
- 为了自动地和同时地挖掘视频的时空信息,可以使用3D卷积。但是3D卷积会带来更多的参数量和计算复杂度;
- 残差恒等映射的大量使用增加了计算复杂度和模型负担.
主要工作:
- 快速时空残差网络(FSTRN);
- 快速时空残差块(FRB);
- 全局残差学习(GRL),包含LR空间残差学习(LRL)以及跨空间残差学习(CRL)
FSTRN:
网络结构:
包含四个模块:LR视频浅层特征提取网络(LFENet),快速时空残差块(FRBs),LR特征融合和上采用SR网络(LSRNet),全局残差学习部分(GRL)。
LEFNet:简单地使用C3D层从LR视频提取特征:
FRBs: 提取从LEFNet输出的时空特征
在FRBs时,使用LR空间残差学习(LRL)去提升LR空间的特征学习:
LSRNet:用于在LRL之后获得超分的视频,先使用C3D进行特征融合,然后使用反卷积进行上缩放,再用一个C3D用于特征图通道调优。
最后将以及从LR到HR空间的全局残差相加得到最后的输出:
快速时空残差块
与EDSR相同的是都去除了BN和相加后的ReLU,不同的是将卷积换为了3D卷积,并且将ReLU置于卷积前面,而本文提出的FRB则是将ReLU换为了PReLU,以及将k*k*k的3D卷积分解为两个1*k*k和k*1*1的3D卷积,减少了计算量。
全局残差学习:包含两个部分,LR空间残差学习和跨空间残差学习。
LR空间残差学习:用于FRBs模块,
跨空间残差学习: 将LR视频直接通过插值映射到HR空间,
Loss:
理论分析:有时间再补上 :)