Deep SR-ITM: Joint Learning of Super-resolution and Inverse Tone-Mapping for 4K UHD HDR Applications
摘要:
由于缺乏原始的UHD HDR视频内容,因此迫切需要适当的转换技术,以将旧的低分辨率(LR)标准动态范围(SDR)视频转换为UHD HDR版本, 在本文中,我们提出了一个联合的超分辨率(SR)和逆色调映射(ITM)框架,称为Deep SR-ITM,它学习了从LR SDR视频到其HR HDR版本的直接映射。联合SR和ITM是一个复杂的任务,对于ITM,必须与SR的高频对比度一起恢复SR的高频细节。我们的网络能够通过分解输入图像并专注于这些基础层(低频)和细节层(高频)来恢复细节。此外,提出的调制块应用位置变化操作以增强局部对比度。 Deep SR-ITM具有良好的主观质量,同时增加了对比度和细节,优于以前的jointSR-ITM方法.
introduction:
与HR图像相比,LR图像的空间分辨率降低会丢失高频细节。在SDR图像中,与HDR图像相比,信号范围(幅度)的减小会丢失对比度和局部细节的局部变化, 对于联合SR-ITM任务,重要的是在提高空间分辨率和分辨率的同时联合恢复精细细节和对比度。从LR SDR输入预测HR HDR图像时的信号幅度.
本文模型中, 输入图像信号被分解为基础层和细节层,并为这两层设计了单独的特征提取通道。这使网络可以专注于在细节层通道中恢复细节。为了增强局部对比度,卷积运算不适合它们,因为它们在空间上是不变的(将相同的滤镜以滑动窗口的方式应用于所有像素)。因此,我们设计了调制块,它们执行空间变化(特定于像素位置)的乘法运算来调制局部强度。生成的调制图也是特定于图像的,因为它们是依赖于图像生成的,这与卷积滤波器是固定的,一旦对它们进行训练,所有图像都将被固定。
我们的问题在功能上不同于以前的ITM方法,后者旨在预测线性域中图像的亮度,这是场景的物理亮度,通常以cd / m2(坎德拉每平方米)为单位,因为我们的网络可以直接预测HR HDR显示格式的图像,在像素域中。因此,色域必须从BT.709扩展到BT.2020 [2],位深度从8位/像素增加到10位/像素,并且传递函数也从γ[1]变为PQ [3]或HLG [4] OETF。图2比较了传统的亮度预测ITM,以及当以显示格式生成HDR图像时,我们在像素域中直接生成HDR视频的方法。为了促进实际应用,我们使用4K(3,840×2,160)HDR视频来训练和测试我们的网络.
本文贡献:
- 我们引入了带有调制模块的新型深度网络,该网络专注于增强联合SR-ITM问题的局部对比度.
- 我们为Deep SR-ITM合并了输入分解方法,以专注于输入图像的独特低频和高频成分.
- 出于实用性考虑,我们针对实际应用进行了4K HDR视频实验,我们的网络以HDR标准显示格式直接预测HR HDR图像.
3 proposed method:
我们提出了Deep SR-ITM,一种基于信号分解和调制的深度残差网络,其中从单个LR SDR图像生成BT.2020 和PQ-OETF 的HDR显示格式的HR HDR图像。网络架构如图所示:
3.1 input decomposition
在输入网络之前, 使用guided filter(保持边缘的低通滤波器[26])将输入 LR SDR 图像 分解为基础层
和 细节层
,
是通过将guided filter 应用于
来计算的,然后通过简单地将
除以
来获得
.
,
表示 逐元素相除,
包含模糊的彩色图像,主要表现为低频信息,
主要是无色的,主要表现为高频信息(例如,边缘和纹理).
因为 也包括有用的信息, 因此 将
在通道方向上与
和
串联在一起,
然后,通过两个不同的特征提取过程分别进行,以便顶层基础层过程可以集中精力转换颜色并扩展幅度,而底层细节层过程可以专注于恢复高频细节
3.2 residual skip modulation blocks
调制(Modulation):
卷积层中的卷积运算在空间上是不变的,因为将相同的卷积核应用于所有像素位置, 特别是为了增强局部对比度,这种卷积特性限制了网络的功能,例如图像特征根据像素位置变换而变化(比如要恢复的对比度)。此外,一旦对网络进行训练,卷积核就会被固定,并且相同卷积核会应用于所有图像样本。因此,我们通过逐元素相乘引入空间变体和图像自适应调制,以帮助网络对比简单的CNN建模更复杂的映射进行建模。在操作上,这类似于注意力块(实际上是对空间信道的概括)在高层次的视觉任务中,例如对象检测和分类。对于这些任务,注意块可帮助网络将注意力集中在重要的区域上。对于像联合SR-ITM这样的低层次的视觉任务,特定位置的乘法运算有助于逐像素调制图像信号。
残差快(Residual blocks):
我们设计了残差,跳越和调制块的四种不同组合:ResBlock,ResModBlock,ResSkipBlock和ResSkipModBlock,
第一, 对于 第 i 个block 的输入 x, 则第 i 个 ResBlock的输出 (橙色框图) , 如下表示:
, 其中, Conv 表示卷积层, RL 表示 ReLUctant**函数(RL(.) = max(0, .))
第二, ResModBlock(绿色框图)有一个附加的调制组件, 它需要由给出的基础层的共享调制功能()
第i 个 ResModBlock的输出 为:
, 其中
表示逐元素相乘
然后,顶层基础层通道的最后一个特征提取层的输出()由下式给出:
, 其中
是通过交替应用ResBlock和ResModBlock获得的,并且包含m个
(基础层过程中的ResBlocks)和m 个RMB
对于细节层过程, 还使用跳越组件来帮助信息流, 第三种类型的块,ResSkipBlock(黄色框图),桥接了基础层过程中的ResModBlock。第i个ResSkipBlock 的输出 :
其中, 其中DR表示1×1卷积的降维层, [x y]表示x和y在通道方向上的拼接, DR层充当选择模块,用于控制从扩展输入中传递哪些信息以及传递多少信息.
最后, ResSkipModBlock 设计具有调制和跳跃连接的功能, 第i 个 ResSkipModBlock的输出 :
然后,通过底部细节层传递的最后一个特征提取层的输出():
包含 m 个RSMB, m-1 个 RSB, 1个
(ResBlock 在细节层过程中)
3.3 融合与合成
Deep SR-ITM的后续部分包括融合基础层和细节层()的功能, 最后产生HR HDR输出.
ResBlock再次被使用到整合部分,定义为 , ResBlock的输入为
:
第n个ResBlock的输出 :
最终HR HDR预测值 :
其中PS表示像素混洗[17],而Bic表示双三次插值, 应用了全局残差学习以及四种残差块内部的局部残差学习,以简化训练并提高预测精度
简化版本: 用来进一步分析输入分解的影响并评估不同类型的调制
实验细节:
所有卷积滤波器的尺寸均为3×3,具有64个输出通道,除了像素洗牌前的层具有256通道和输出层具有3通道以外, 同时还转换了颜色容器,对网络的所有三个YUV通道进行了训练和测试. 网络结果中, m=3, n = 10, SR 的放缩倍数为4, 实现了两个像素混乱,
训练:
使用L2 loss , Adam 优化器 , Xavier初始化方法[30]
结论:
在本文中,我们提出了Deep SR-ITM(联合SR-ITM框架),其中将输入的SDR图像分解为基础层和细节层,从而将低频信息和高频信息分开。由于采用了这种输入分解策略,Deep SR-ITM能够精确预测丢失的细节,借助细节层进行空间放大,同时针对ITM任务将总体强度和颜色扩展到基础层的帮助下,达到HDR亮度上下文。通过引入空间变型操作,可以引入调制方案来增强图像信号幅度中的局部对比度。在像素域中直接生成HR HDR图像是非常方便的应用程序,可为UHD HDR消费者显示器生成优质的视觉内容.
[17] W. Shi, J. Caballero, F. Huszar, J. Totz, A. P. Aitken, R. Bishop, D. Rueckert, Z. Wang. Real-Time Single Image and
Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network. CVPR, 2016.[26] Kaiming He, Jian Sun, Xiaoou Tang. Guided Image Filtering.TPAMI, 35(6): 1397-1409, 2013.
[30] X. Glorot, Y. Bengio. Understanding the difficulty of training deep feedforward neural networks. AISTATS, 2010.