【论文阅读笔记】（视频编码—环内滤波器）《MFRNet: A New CNN Architecture for Post-Processing and In-loop Filtering 》

《MFRNet: A New CNN Architecture for Post-Processing and In-loop Filtering 》论文阅读笔记

提出的问题
莫得！

motivation
提出了一种multilevel feature review residual dense blocks for postprocessing and in-loop ﬁltering. 其实就是单纯的利用了dense residual net结构，同样的多个MFRB（ Multi-level Feature review Residual dense Blocks）串联起来，反正能串联的信息流全连起来。

文章的结构和《Residual Dense Network for Image Super-Resolution》（https://blog.****.net/jiamenghu/article/details/109312669）很像，都是dense residual net模块串联起来控制信息流。

补充
环内滤波器位于重建图像生成之前
【论文阅读笔记】（视频编码—环内滤波器）《MFRNet: A New CNN Architecture for Post-Processing and In-loop Filtering 》
后处理位于解码端重建图像生成之后

network

【论文阅读笔记】（视频编码—环内滤波器）《MFRNet: A New CNN Architecture for Post-Processing and In-loop Filtering 》

整个网络输入一个96x96的YCbCr 4：4：4的图像块，输出同样形式的滤波块。
1、首先，使用了一个带有Leaky ReLU （LReLU）的**函数的卷积层来提取浅层特征（SFs）.
2、然后使用了4个串联的多级特征回顾残差密集网络（ Multi-level Feature review Residual dense Blocks (MFRBs, B1-B4)），用来提出深层的密集特征。
每个MFRB的输出都会和前面所有的MFRB输出以及最初的浅层特征拼接起来，输入一个1x1的卷积网络，有效的提升了信息流传输的同时，减少residual dense block的数量（【57】“Fast, accurate, and lightweight super-resolution with cascading residual network，【58】Photo-realistic image super-resolution with fast and lightweight cascading residual network）。
3、为了重复使用高维特征(HDF)，每个MFRB的HDFs都会输入下一个MFRB中。
4、经过一个重建层（RL1）之后，使用一个skip connection将浅层特征加到输出上
5、经过第二个重建层（RL2）之后，生成残差图像，加上输入图像，得到滤波的输出。

MFRB
【论文阅读笔记】（视频编码—环内滤波器）《MFRNet: A New CNN Architecture for Post-Processing and In-loop Filtering 》

每个MFRB都包括3个FRB（ Feature review Residual dense Blocks）
在许多现存的CNN结构中，仅仅应用residual block，会导致信息流单一流动，阻止了高级特征访问之前的特征。
因此这里使用FRB结构，
1、每个FRB都有2个输入和输出。每个FRB接收前一个MFRB或者FRB的输出，同时还接受前一个MFRB或者FRB中的高维特征（HDFs）。（有效提升信息流）
2、一个skip connection用在每个FRB的首尾，可以绕过冗余信息，稳定训练和评估过程（【72】“Deep residual learning for image recognition【73】Secondorder attention network for single image super-resolution）

FRB
【论文阅读笔记】（视频编码—环内滤波器）《MFRNet: A New CNN Architecture for Post-Processing and In-loop Filtering 》
1、每个FRB是一个dense residual net形式。每个卷积层的输出都会拼接到一起，输入最后的卷积层
2、拼接之后的特征同时会被进一步输出2个修改的残差块，来获取HDFs.

（反正就是信息流，流来流去，只要能连我就连）

训练与验证
数据集使用了BVI-DVC，800个序列，每个序列有64帧，专门用来做视频编码压缩之类的。10bit，YCbCr 4：2：0
1、作者先是使用HM16.20和VTM7.0编码后，RA（所有的环内滤波器保持**。）分割成96x96的块，转成4：4：4的格式。
2、训练时，使用块旋转来实现数据增强。（每个QP大约有192000对块）
3、L1 作为损失函数，Adam优化器，batch size=16；lr=0.0001， weight decay of 0.1 for every 100 epochs.

作者在HM和VTM的PP（ post-processing）和ILF（ in-loop ﬁltering）都做了实验验证。
BD-Rate（PSNR）
HM16.20 ： ILF：-10.2% PP ：-14.1%
VTM7.0 ： ILF：-4.6% PP：-6.7%

这里我有点疑问，按理说RA配置，ILF的结果应该比PP后，因为ILF滤波后，会用来下一帧的预测，使用 CNN增强后，下一帧预测的更加准确，码率应该更小才对，实验结果却相反。
文中作者的理由是说PP的CNN结构属于end-to-end训练，而ILF的当前帧对下一帧预测的影响不会反应到训练中，因此CNN模型不够有效。

contributions

提出一种探索多级特征回顾的密集残差网络结构
整合进HEVC和VVC的环内滤波器和后处理中，RA配置
在相同训练集和验证机下比较了和其他网络的实验结果

【论文阅读笔记】（视频编码—环内滤波器）《MFRNet: A New CNN Architecture for Post-Processing and In-loop Filtering 》

《MFRNet: A New CNN Architecture for Post-Processing and In-loop Filtering 》论文阅读笔记

相关推荐