Residual Invertible Spatio-Temporal Network for Video Super-Resolution
发表在AAAI2019。
主要工作:充分利用低分辨率到高分辨率的空间信息,从连续的视频帧建模时间的一致性。对于空间部分,设计了残差可逆块用于减少特征转换中的信息损失,并且提供鲁棒的特征表示。对于时间部分,使用了残差稠密连接的循环卷积模型。在重建模块,提出了基于稀疏策略的融合方法,用于合并时间特征和空间特征。
目前捕捉连续帧的时间一致性的方法分为两类:基于运动补偿的方法,提取显式的运动信息,如光流,但运算量太大;和基于循环卷积网络的方法,先前的方法有四个缺陷:LR视频帧必须提前进行插值;不能很好地保持空间信息;现有的循环架构大多不够深入,无法有效地覆盖VSR中的远程运动和时间一致性;时间信息和空间信息没有进行结合在一起。
本文(RISTN)主要分为三个分量:时间分量、空间分量和重建分量。
空间分量中,超分后的图像应该与低分辨率的图像具有相似的结构,本文使用的是残差可逆块,改进《i-REVNET: DEEP INVERTIBLE NETWORKS》这篇文章中的网络结构,
,则
可以表示为
。类似的可得:
故前一层的特征可以用任意的和
表示,另外,RIB的输出可以表示为:
时间分量上,使用的是具有快捷连接的循环模型。使用了卷积的LSTM(C-LSTM)。
由于b和d有按元素相加的操作,必须保证通道数一致,因此引入了一个卷积层保证输入和输出的通道数相同,
稀疏特征融合:使用稀疏策略去融合时间和空间特征。利用稀疏性去选择有用的特征,降低过拟合的风险。
利用了映射层将时间特征转换为与空间特征相同的空间,
SM是一个稀疏矩阵。
最后使用了反卷积作为重建过程中的上采样。
训练损失:
先在ImageNet上预训练:
然后在视频数据集上训练RISTN:
L1损失可以保证SM的稀疏性。
实验结果: