Neural Inter-Frame Compression for Video Coding 个人理解
本文发表在ICCV2019,论文地址:http://openaccess.thecvf.com/ICCV2019.py
一、摘要:
(1)本文提出了一个建立在基于深度学习图像压缩基础上的端到端的视频编解码框架。
(2)时间冗余通过光流的像素空间中的运动补偿来进行。
(3)通过将所需信息编码为运动和混合系数的潜在表示形式,从而提高解码效率和重建质量。
二、论文解析
1、文献的视频编解码架构:将视频分成GOP,每一个GOP视频帧数为n,第1帧和第n帧采用图片压缩算法,其余帧采用帧间压缩进行压缩。
2、图片压缩。因为本文是基于图片压缩展开的视频编解码,所以还是要简单提一下图片编解码。
基于神经网络的图片编解码的主要任务就是达到重构图片与原始图片的失真预期时尽量减小图片映射空间(编码)的码流长度,也即优化如下的率失真( rate-distortion )函数:
2、为了在视频编解码中利用时间冗余,本文的方案依然是通过运动补偿的信息传输来解决。
3、创新一:具有压缩限制的插值
本文选择前后两个参考帧进行帧间预测:
这个方法有两个优势:
(1)原始帧x一起被送到网络中提供warping结果,可以更好地预测混合系数( blending coefficients )。此外,对重构帧而不是对重构的运动场进行惩罚,可以使网络自己推断出对插帧更有利的运动场向量。
(2)另一个优点是减少了计算时间,因为在解码端避免了复杂的帧插值。
4、创新二:潜在空间残差
通过上述的框架重构出的视频帧会有明显误差,需要通过残差来降低误差。
本文没有为残差编解码设计独立的网络,而是利用图片编解码对 将残差信息投影到潜在空间上。
5、网络选择
图片编解码网络选择经典的 等提出的含有GDN/IGDN结构的图片压缩网络。
插帧和主帧都用此网络架构,不同的是图片压缩网络解码端输出通道3,对应RGB通道,插帧网络的解码端输出通道是5,其中四个通道对应运动向量,一个通道对应混合系数。
光流采用PWC-net。
量化:训练时加均匀噪声,推理时直接rounding取整。
三、实验结果与结论
1、实验结果
Sequential方法:首先对光流进行编解码,然后再进行视频帧插值。
simple:用了 初始版本的图片压缩算法
full: 用了 改进版本的图片压缩算法
与其他算法比对:
2、结论
(1)与传统的经过数十年工程改进的算法(如H265)相比,本文算法有一定竞争力。
(2)内插任务中嵌入了压缩约束,编码阶段利用了所有可用的信息。
(3)关键帧和残差都使用相同的网络压缩,简化了视频编解码任务。
(4)本文只研究了利用前后主帧进行插帧,并未研究只利用历史帧进行帧间预测。