【论文笔记】(VC) 《Frame-wise CNN-based Filtering for Intra-Frame Quality Enhancement of HEVC Videos》
《Frame-wise CNN-based Filtering for Intra-Frame Quality Enhancement of HEVC Videos》阅读笔记
question
基于块的训练和滤波不太好,有一些缺点
motivation
提出了一种基于帧的CNN滤波器,就是用整帧来训练网络。
基于全局帧内容,网络可以检测整帧图片的低质量区域,compute the necessary details for enhancing
the quality of the frames compressed with higher QP values(这里没读懂)
流程
Input Patch Generation
使用更大的块比小块更具有优势
- 能够获取到全局的特征信息
- 。。。
因为GPU的限制,对于比较大的帧,切割成4个或者16个输入。。。。
这里会生成
Y
,
U
,
V
Y,U,V
Y,U,V和相应的最优模式划分
M
Y
,
M
U
,
M
V
M_Y,M_U,M_V
MY,MU,MV
HEVC对亮度通道会生成
2
b
1
+
2
∗
2
b
1
+
2
2^{b_1+2}*2^{b_1+2}
2b1+2∗2b1+2大小的块,这里
b
1
b_1
b1=0,1,2,3
HEVC对色度通道会生成
2
b
2
+
2
∗
2
b
2
+
2
2^{b_2+2}*2^{b_2+2}
2b2+2∗2b2+2大小的块,这里
b
2
b_2
b2=0,1,2
同样有35个帧内模式
因此对于一帧中位置为
(
x
,
y
)
(x,y)
(x,y)的点,在 the mode map 的值为:
M
Y
(
x
,
y
)
=
m
i
+
35
b
1
∈
0
,
1
,
.
.
.
,
139
M_Y(x,y)=m_i+35b_1 \in{0,1,...,139}
MY(x,y)=mi+35b1∈0,1,...,139
同样
M
U
(
x
,
y
)
=
m
i
+
35
b
U
2
,
M
U
(
x
,
y
)
=
m
i
+
35
b
U
2
∈
0
,
1
,
.
.
.
,
104
M_U(x,y)=m_i+35b_U2,M_U(x,y)=m_i+35b_U2 \in {0,1,...,104 }
MU(x,y)=mi+35bU2,MU(x,y)=mi+35bU2∈0,1,...,104
文中使用
P
k
P_k
Pk代表2种块,
k
=
1
,
2
k=1,2
k=1,2.
- P k c P^c_k Pkc代表颜色信息
- P k m P^m_k Pkm代表模式信息
Neural Network Design
这个网路基本结构属于UNet
。。。没什么可写的了。。。
结果
AI模式下Y分量Bd-rate savings 为9.2%
contributions
1、提出一种高效的CNN滤波器取代环内滤波器
2、基于帧的训练和滤波,提升的效果和相对于块滤波的更少的运行时间。
3、基于YUV输入的色度滤波策略
4、利用了HEVC中的最优模式划分
5、AI HEVC BD-rate savings 大约11.1%
简单来说:用帧训练,加入了CU划分和最优预测模式信息,Unet基本结构,没了。。