【论文阅读笔记】(视频编码—环内滤波器)《MFRNet: A New CNN Architecture for Post-Processing and In-loop Filtering 》

《MFRNet: A New CNN Architecture for Post-Processing and In-loop Filtering 》论文阅读笔记


提出的问题
莫得!


motivation
提出了一种multilevel feature review residual dense blocks for postprocessing and in-loop filtering. 其实就是单纯的利用了dense residual net结构,同样的多个MFRB( Multi-level Feature review Residual dense Blocks)串联起来,反正能串联的信息流全连起来。

文章的结构和《Residual Dense Network for Image Super-Resolution》(https://blog.****.net/jiamenghu/article/details/109312669)很像,都是dense residual net模块串联起来控制信息流。


补充
环内滤波器位于重建图像生成之前
【论文阅读笔记】(视频编码—环内滤波器)《MFRNet: A New CNN Architecture for Post-Processing and In-loop Filtering 》
后处理位于解码端重建图像生成之后
【论文阅读笔记】(视频编码—环内滤波器)《MFRNet: A New CNN Architecture for Post-Processing and In-loop Filtering 》


network

【论文阅读笔记】(视频编码—环内滤波器)《MFRNet: A New CNN Architecture for Post-Processing and In-loop Filtering 》

整个网络输入一个96x96的YCbCr 4:4:4的图像块,输出同样形式的滤波块。
1、首先,使用了一个带有Leaky ReLU (LReLU)的**函数的卷积层来提取浅层特征(SFs).
2、然后使用了4个串联的多级特征回顾残差密集网络( Multi-level Feature review Residual dense Blocks (MFRBs, B1-B4)),用来提出深层的密集特征。
每个MFRB的输出都会和前面所有的MFRB输出以及最初的浅层特征拼接起来,输入一个1x1的卷积网络,有效的提升了信息流传输的同时,减少residual dense block的数量(【57】“Fast, accurate, and lightweight super-resolution with cascading residual network,【58】Photo-realistic image super-resolution with fast and lightweight cascading residual network)。
3、为了重复使用高维特征(HDF),每个MFRB的HDFs都会输入下一个MFRB中。
4、经过一个重建层(RL1)之后,使用一个skip connection将浅层特征加到输出上
5、经过第二个重建层(RL2)之后,生成残差图像,加上输入图像,得到滤波的输出。


MFRB
【论文阅读笔记】(视频编码—环内滤波器)《MFRNet: A New CNN Architecture for Post-Processing and In-loop Filtering 》

每个MFRB都包括3个FRB( Feature review Residual dense Blocks)
在许多现存的CNN结构中,仅仅应用residual block,会导致信息流单一流动,阻止了高级特征访问之前的特征。
因此这里使用FRB结构,
1、每个FRB都有2个输入和输出。每个FRB接收前一个MFRB或者FRB的输出,同时还接受前一个MFRB或者FRB中的高维特征(HDFs)。(有效提升信息流)
2、一个skip connection用在每个FRB的首尾,可以绕过冗余信息,稳定训练和评估过程(【72】“Deep residual learning for image recognition【73】Secondorder attention network for single image super-resolution)


FRB
【论文阅读笔记】(视频编码—环内滤波器)《MFRNet: A New CNN Architecture for Post-Processing and In-loop Filtering 》
1、每个FRB是一个dense residual net形式。每个卷积层的输出都会拼接到一起,输入最后的卷积层
2、拼接之后的特征同时会被进一步输出2个修改的残差块,来获取HDFs.


(反正就是信息流,流来流去,只要能连我就连)


训练与验证
数据集使用了BVI-DVC,800个序列,每个序列有64帧,专门用来做视频编码压缩之类的。10bit,YCbCr 4:2:0
1、作者先是使用HM16.20和VTM7.0编码后,RA(所有的环内滤波器保持**。)分割成96x96的块,转成4:4:4的格式。
2、训练时,使用块旋转来实现数据增强。(每个QP大约有192000对块)
3、L1 作为损失函数,Adam优化器,batch size=16;lr=0.0001, weight decay of 0.1 for every 100 epochs.

作者在HM和VTM的PP( post-processing)和ILF( in-loop filtering)都做了实验验证。
BD-Rate(PSNR)
HM16.20 : ILF:-10.2% PP :-14.1%
VTM7.0 : ILF:-4.6% PP:-6.7%

这里我有点疑问,按理说RA配置,ILF的结果应该比PP后,因为ILF滤波后,会用来下一帧的预测,使用 CNN增强后,下一帧预测的更加准确,码率应该更小才对,实验结果却相反。
文中作者的理由是说PP的CNN结构属于end-to-end训练,而ILF的当前帧对下一帧预测的影响不会反应到训练中,因此CNN模型不够有效。


contributions

  • 提出一种探索多级特征回顾的密集残差网络结构
  • 整合进HEVC和VVC的环内滤波器和后处理中,RA配置
  • 在相同训练集和验证机下比较了和其他网络的实验结果