Image Super-Resolution Using Very Deep Residual Channel Attention Networks 翻译
Image Super-Resolution Using Very Deep Residual Channel Attention Networks
原文arxiv
文章目录
- 摘要
- 前言
- 2 相关网络
- 3 Residual Channel Attention Network (RCAN)
- 3.1 Network Architecture
- 3.2 Residual in Residual (RIR)
- 3.3 Channel Attention (CA)
- 3.4 Residual Channel Attention Block (RCAB)
- 3.5 Implementation Details
- 4 Experiments
- 4.1 Settings
- 4.2 Effects of RIR and CA
- 4.3 Results with Bicubic (BI) Degradation Model
- 4.4 Results with Blur-downscale (BD) Degradation Model
- 4.5 Object Recognition Performance
- 4.6 Model Size Analyses
- 5 Conclusions
摘要
卷积神经网络(CNN)的深度对于图像超分辨率(SR)是极其关键的因素。然而,我们观察到,更深层次的图像SR网络更难训练。低分辨率的输入和特征包含丰富的低频信息,这些信息在通道间被平等对待,从而阻碍了CNNs的表征能力。为了解决这些问题,我们提出了一种非常深的残差通道注意网络(RCAN)。具体地,我们提出了一种residual in residual(RIR)结构来形成非常深的网络,它由几个具有长跳连接的残差组组成。每个残差组包含一些具有短跳连接的残差块。与此同时,RIR允许大量的低频信息通过多个跳跃连接被绕过,使得主网络专注于学习高频信息。在此基础上,我们提出了一种通道注意机制,通过考虑通道间的相互依赖关系,自适应地重新调整通道特征。大量的实验表明,与比之前最先进的方法相比,我们的RCAN实现了更好的精度和视觉效果。
前言
我们解决了这样一个问题:给定一个低分辨率(LR)图像,然后重建出一个精确的高分辨率(HR)图像,通常被称为单图像超高分辨率(SR)。图像SR被用于各种计算机视觉应用,从安全和监控成像、医学成像到目标识别。然而,图像SR是一个不适定问题( ill-posed problem),因为对于任意一个LR输入,都存在多个解决方案。为了解决这样一个逆问题,许多基于学习的方法被提出来学习LR和HR图像对之间的映射。
最近,基于深度卷积神经网络(CNN)的方法相对于传统的SR方法有了显著的改进。其中Dong等人提出了一个首先引入一个三层CNN的SRCNN的方法。Kim等人将VDSR和DRCN的网络深度增加到20,比SRCNN有了明显的改善。在许多视觉识别任务中,网络深度被证明是最重要的,特别是当He等人提出了残差网络(ResNet)时,用这种残差块使网络达到了1000层。这种有效的残差学习策略随后被引入到许多其他基于CNN的图像SR方法中。Lim等人利用简化的残差块构建了一个非常大的EDSR网络和一个非常深的MDSR网络(大概165层)。EDSR和MDSR的性能得到了很大的提高,这表明深度对图像SR起着至关重要的作用。然而,据我们所知,仅仅通过叠加残差块来构建更深的网络很难获得更好的提升效果。更深的网络是否能进一步促进图像SR,以及如何构建非常深层的可训练网络仍有待进一步探索。
另一方面,最新的基于CNN的方法对通道特征的处理是平等的,在处理不同类型的信息(如低频率和高频率信息)时缺乏灵活性。图像SR可以看作这样一个处理过程,即我们尽可能地恢复更多的高频信息。LR图像包含的低频信息最多,可以直接传送到最终的HR输出,而不需要太多的计算。而领先的基于CNN的方法(如EDSR)将从原始LR输入中提取特征,并平等地对待每个通道特征。这样的操作会在大量的低频特征上浪费不必要计算,缺乏跨特征通道的区别性学习能力,最终阻碍了深度网络的表征能力。
为了实际地解决这些问题,我们提出了一个残差通道注意网络(RCAN)来获得非常深的可训练网络,同时自适应地学习更多有用的通道特征。为了使超深网络(如,超过400层)的训练变得容易,我们提出了残差嵌套(residual in residual,RIR)结构,其中残差组( residual group,RG)作为基本模块,长跳连接(long skip connection,LSC)允许粗级的残差学习。在每个RG模块中,我们使用短跳连接((short skip connection,SSC)将几个简化的残差块堆叠起来。通过这些基于 identity的跳跃连接,长跳连接和短跳连接以及残差中的短跳连接可以绕过大量低频信息,从而使得信息的流动更加容易。在此基础上,我们提出了通道注意(CA)机制,通过对特征通道之间的相互依赖性进行建模,来自适应地重新缩放每个通道的特征。这样的CA机制使得我们所提出的网络可以专注于更多有用的通道并增强区别性学习能力。如图1所示,我们的RCAN与最先进的方法相比,获得了更好的视觉SR结果。
总体而言,我们的贡献是三方面的:
(1) 我们提出非常深的残差通道注意网络(RCAN)来获得高精确度的图像。我们的RCAN相比以前的基于CNN的方法,可以达到更深的层次,并获得更好的SR性能。
(2) 我们提出残差嵌套(RIR)结构构造非常深的可训练网络。RIR中的长跳连接和短跳连接有助于绕过大量的低频信息,使主网络学习到更有效的信息。(3) 通过考虑特征通道间的相关性,提出通道注意( channel attention,CA)机制自适应地重新缩放特征。这种CA机制进一步提高了网络的表示能力。
2 相关网络
在计算机视觉领域已经研究了大量的图像SR方法。注意机制在高级视觉任务中很常见,但在低级视觉应用中却很少被研究。由于篇幅所限,本文仅对基于CNN的方法和注意机制的相关工作进行了探讨。
Deep CNN for SR. 开拓性的工作是由Dong等人完成的,他们提出了SRCNN用于图像SR,并取得了与以往工作相比的较好效果。Kim等人通过引入残差学习来缓解训练难度,提出了20层的VDSR和DRCN,在准确率上有了显著提高。Tai等人后来引用了DRRN中的递归块和MemNet中的内存块。这些方法必须首先将LR输入插值到所希望的大小,这将不可避免地丢失一些细节并大大增加计算量。
从原始LR输入中提取特征并在网络尾端提高空间分辨率是深度架构的主要选择。一种快速的网络结构FSRCNN被提出来加速SRCNN的训练和测试。Ledig等人引用了ResNet 来构建更深层次的网络SRResNet用于图像SR。他们也提出知觉损失和生成对抗网络(generative adversarial network,GAN)的SRGAN用于实景照片的SR。这种基于GAN的模型随后被EnhanceNet所引用,它把自动化纹理合成和感知损失相结合。虽然SRGAN和Enhancenet可以在一定程度上缓解模糊和过模糊的伪影,但它们的预测结果可能无法被忠实地重构,从而产生令人不快的伪象。Lim等人通过去除传统残差网络中不必要的模块,提出了EDSR和MDSR,取得了显著的改善。然而,这些方法大多具有有限的网络深度,而深度已被证明在视觉识别任务中是非常重要的,可以达到约1000层。在MDSR中简单地叠加剩余块,很难实现深度网络的改进。此外,这些方法大多对通道特征一视同仁,阻碍了对不同类型特征的区别性能力。
Attention mechanism. 一般来说,注意力可以被看作是一种指导,使可用处理资源的分配偏向于输入中信息量最大的部分。最近,一些尝试性的工作将注意力应用到深度神经网络,范围从图像定位和理解,到基于序列的网络。它通常与一个门控函数(如sigmoid)相结合来重新缩放特征图。Wang等人提出了一种残差注意网络用于图像分类,该残差注意网络具有一个集群和掩码注意机制。Hu等人在中提出了挤压-激励(SE)块来建立通道关系的模型,以获得图像分类性能的显著改善。然而,很少有人提出去研究注意对低水平视觉任务(如图像SR)的影响。
在图像SR中,高频通道特征对HR重建更有帮助。如果我们的网络更多地关注这种通道特性,应该有希望得到更好的性能改进。为了深入研究这种机制,我们提出了非常深入的残差通道注意网络(RCAN),我们将在下一节详细介绍。
3 Residual Channel Attention Network (RCAN)
3.1 Network Architecture
如图2所示,我们的RCAN主要由四个部分组成:浅层特征提取、残差嵌套(RIR)深度特征提取、上采样模块和重建部分。
令 和 分别为RCAN的输入和输出。根据在文献中的研究,我们仅使用一个卷积层从LR输入提取浅层特征
其中, 表示卷积操作。 随后用于RIR模块深层特征的提取。因此我们进一步有
其中, 表示本文所提出的非常深的RIR结构,它包含G个残差组(RG)。据我们所知,我们提出的RIR达到了迄今为止最大的深度,并提供了非常大的感受野。因此我们将其输出视为深层特征,然后通过一个上采样模块进行上采样
其中, 和 分别表示一个上采样模和上采样特征。
有多种选择可以用作上采样模块,例如反卷积层(也称为转置卷积)、最近邻点上采样+卷积以及ESPCN。 与预上采样的SR方法(如DRRN和MemNet)相比,这种后上采样的策略在计算复杂度和实现更高的性能上都得到了证。上采样特征随后通过一个Conv层被重建
其中 和 分别表示重建层和RCAN函数。
然后利用损失函数对RCAN进行优化。有几种损失函数被研究,如 损失、 损失、感知损失和对抗损失。为了展示我们的RCAN的有效性,我们选择优化与先前工作相同的损失函数(例如损失函数)。给定训练集 ,其包含了 个 LR 输入和它们对应得 HR 输入。RCAN训练得目标是最小化 损失函数
其中, 表示网络的参数。损失函数通过使用梯度下降法进行优化。更多的细节可看 4.1 节。我们选择浅层特征提取 、上采样模块 和重建部分 与之前的工作(如EDSR和RDN)类似,我更关注我们所提出的RIR、CA和基本块RCAB
3.2 Residual in Residual (RIR)
我们现在给出更多关于RIR的细节(见图2),其中包含G个残差组(RG)和长跳连接(LSC)。每个RG进一步包含B个带短跳连接(SSC)的残差通道注意块(RCAB)。这种RIR结构允许训练非常深的CNN(超过400层)来获得高性能的图像SR。
研究表明,堆叠残差块和LSC可用于构造深度CNN。在视觉识别中,残差块可以堆叠起来实现超过1000层的可训练网络。然而,在image SR中,以这种方式构建的非常深的网络会遇到训练困难,很难获得更大的性能增益。受SRRestNet和EDSR的启发,我们提出了残差组(RG)作为更深层网络的基本模型。在第g个群组中一个RG可被计算为:
其中, 表示第g个RG函数, 和 是第g个RG的输入和输出。我们观察到,仅堆叠许多RG将无法获得更好的性能。 为了解决这个问题,RIR中进一步引入了长跳连接(LSC),以稳定非常深的网络的训练。 LSC还可以通过残差学习使更好的性能成为可能
其中, 为RIR尾部Conv层的权值。为了简单起见,省略了偏置项。LSC不仅可以简化RGs间的信息流动,而且可以使RIR在粗糙的层次上学习残差信息。
如第1节所述,LR输入和特征中包含大量丰富的信息,SR网络的目标是恢复更多有用的信息。丰富的低频信息可以通过基于identity的跳跃连接绕过。进一步地,我们在每个RG中堆叠了B个残差通道注意块。在第g个RG中第b个残差通道注意块 (residual channel attention block,RCAB)可以被计算为:
其中, 和 是第g个RG中第b个RCAB的输入和输出,相应的函数为 。为了使主网络更加关注有价值的特征信息,通过下列公式引入了短跳连接(SSC)来获取块输出
其中, 为第g个RIR尾部中Conv层的权值。SSC进一步允许网络的主要部分学习残差信息。 使用LSC和SSC,在训练过程中更容易绕过大量的低频信息。为了进一步实现更有鉴别性的学习,我们更加关注通过渠道关注而对渠道方式的特征缩放。
3.3 Channel Attention (CA)
以前基于CNN的SR方法对LR通道特征的处理是平等的,这对于实际的情况缺乏灵活性。为了使网络关注更加有价值的信息,我们利用特征通道间的相关性,形成了通道注意(CA)机制(见图3)。如何为每个通道特征生成不同的注意是关键的一步。这里我们主要考虑两个问题:第一,LR空间中信息具有丰富的低频成分和有价值的高频成分。低频部分似乎比较平坦。高频成分通常是充满边缘、纹理和其他细节的区域。另一方面,Conv层的每个过滤器都有一个局部感受野。因此,卷积后的输出无法利用局部区域之外的上下文信息。
在此基础上,利用全局平均池化将通道相关的全局空间信息转化为通道描述符。如图3所示,令 为输入,这用 个大小为 的特征图。通过空间维数 对进行收缩,可以得到信道方向的统计量。 的第c个元素可被计算为:
其中, 为第c个特征 在处的值。 表示全局池化函数。这样的通道统计可以看作是局部描述符的集合,它们的统计有助于表达整个图像。除了全局平均池化外,这里还可以引入更复杂的聚合技术。
为了通过全局平均池化从聚合的信息中完全捕获通道依赖关系,我们引入了一种门控机制。正如在文献中讨论的,门控机制应该满足两个条件:首先,它必须能够学习通道之间的非线性相互作用;其次,由于可以强调多个通道的特征而不是one-hot**,它必须学会一种非相互排斥的关系。在这里,我们选择利用sigmoid函数的简单门控机制:
其中, 和 分别表示sigmoid门函数和ReLU函数。 为卷积层的权值,它以缩减比 充当通道缩减。在由ReLU**后,低维信号随后通过权值为 的通道上采样层以比率 增加。然后,我们可以获得最终的特征统计量 ,用于重新缩放输入
其中, 和 为在第c个通道的缩放因子和特征图。在通道注意的情况下,对RCAB中的残差分量进行自适应缩放。
3.4 Residual Channel Attention Block (RCAB)
如前所述,残差组和长跳连接允许网络的主要部分关注于LR特征中的更有信息性的成分。通道注意提取通道间的通道统计量,进一步提高网络的鉴别性能力。
同时,收到在文献中残差块(RB)成功的启发,我们把CA融合进RB中,提出了残差通道注意块(RCAB)(见图4)。
对于第g个RG中的第b个RB,有
其中, 表示特征注意函数。 和 为RCAB的输入和输出,RCAB从输入中学习残差 。残差成分主要由两个堆叠的卷积获得:
其中, 和 为RCAB中的两个堆叠Conv层的权重集合。
我们进一步展示了我们提出的RCAB和文献[10]中残差块(RB)之间的关系。我们发现MDSR和EDSR中使用的RBs可以看作是我们的RCAB的特例。MDSR中的RB没有缩放( rescaling)操作。与RCAB相同,设 为常数1。与EDSR中设定RB为恒定rescaling(如0.1)相同,RCAB也将 设为0.1。虽然引入了通道rescaling来训练非常大的网络,但在EDSR中没有考虑通道之间的相互依赖性。在这些情况下,CA没有被考虑。
基于残差通道注意块(RCAB)和RIR结构,我们构造了一个非常深的RCAN,用于高精度的图像SR,并在之前的领先方法的基础上实现了显著地性能改进。有关每个我们所提出的组成部分的影响的更多讨论见第4.2节。
3.5 Implementation Details
现在我们详细介绍所提出的RCAN的实现细节。我们在RIR结构中将RG的个数设为G=10。在每个RG中,我们将RCAB个数设置为20。我们将所有Conv层的尺寸设为3×3,除了通道下采样和通道上采样,它们的卷积核尺寸为1×1。对于卷积核大小为3×3的Conv层,采用补零策略保持尺寸大小不变。在浅层特征提取和RIR结构中,Conv层有C=64个滤波器(除开通道下采样)。通道下采样中的Conv层有 个滤波器,其中降阶比 设为16。对于上采样模块 ,我们遵循文献[10,17,33]并使用ESPCNN将粗分辨率特性提升到细分辨率特性。当我们输出彩色图像时,最后的Conv层有3个滤波器。同时,我们的网络还可以处理灰度图像。
4 Experiments
4.1 Settings
我们阐明了数据集的基本设置、衰减模型、评价指标和训练设置。
Datasets and degradation mo dels. 和文献[10,11,17,35]一样,我们使用来自DIV2K数据集的800张训练图像作为训练集。为了进行测试,我们使用了5个标准的基准数据集:Set5、Set14、B100、Urban100和Manga109。我们使用双三次(Bicubic,BI)和模糊降级(BD)衰减模型进行了实验。
Evaluation metrics. 通过PSNR和SSIM在转换后的YCbCr空间的Y通道(即亮度)上评估SR结果。我们还与几种领先的SR方法进行了在对象识别方面的性能比较(例如top-1和top-5识别错误)。
Training settings. 在800个训练图像上进行数据增强,以90,180,270度进行随机旋转和水平翻转。在每个训练批次中,提取16个大小为48×48的LR色块作为输入。我们使用Adam优化器, 和 分别取默认值0.9和0.999。初始学习率为 ,然后每 次反向传播减少一半。我们使用PyTorch来实现我们的模型。
4.2 Effects of RIR and CA
我们研究了残差嵌套(RIR)和信道注意(CA)中的作用。
Residual in residual (RIR). 为了说明我们所提出的RIR结构的影响,我们将从很深的网络中移除长跳连接(LSC)或短跳连接(SSC)。具体地,我们将残差块的个数设置为200,即10个残差组,得到了超过400个Conv层的非常深的网络。在表1中,当LSC和SSC同时被移除时,无论是否使用通道注意(CA), Set5(×2)上的PSNR值都相对较低。
例如,在第一列,PSNR是37.45 dB。加入RIR后,性能达到37.87 dB。当添加CA时,可以使用RIR将性能从37.52 dB提高到37.90 dB。这说明简单地叠加残差块并不适用于实现非常深的、功能强大的 image SR网络。使用LSC或SSC可以提高网络性能,并且两者都可以获得更好的效果。这些比较表明,LSC和SSC对于非常深的网络是必不可少的,它们也证明了我们提出的RIR结构对非常深的网络的有效性。
Channel attention (CA). 通过对渠道注意的观察和讨论,进一步说明了通道注意的作用。当我们比较前4列和后4列的结果时,我们发现有CA的网络比没有CA的网络表现得更好。得益于非常大的网络深度,非常深的可训练网络可以达到非常高的性能。这样的深度网络很难得到进一步的改善,但是我们通过CA得到了改善。即使没有RIR, CA也可以将性能从37.45 dB提高到37.52 dB。这些比较有力地证明了CA的有效性,并表明对通道道特征的自适应关注确实提高了性能。
4.3 Results with Bicubic (BI) Degradation Model
我们将我们的方法与11种最先进的方法进行比较:SRCNN、FSRCNN、SCN、VDSR、LapSRN]、MemNe、EDSR、SRMDNF、D-DBPN和RDN。与文献[10,17,43]类似,我们还引进了自集成策略( self-ensemble strategy)来进一步提升RCAN的性能,并将其称为RCAN+。补充材料中提供了更多的比较。
Quantitative results by PSNR/SSIM. 表2显示了×2、×3、×4和×8 SR 的定量比较。D-DBPN的结果引自他们的论文。与以前的所有方法相比,我们的RCAN+在具有所有缩放因子的所有数据集上执行得最好。即使没有自集成,我们的RCAN也优于其他比较方法。
另一方面,当缩放因子变大(例如,8)时,RCAN超过了EDSR的增益效果。对于Urban100和Manga109, RCAN比EDSR的PSNR增益分别高0.49 dB和0.55 dB。EDSR的参数(43 M)比我们的参数(16 M)多得多,但是我们的RCAN获得了更好的性能。我们的RCAN通过通道注意(CA)自适应地重新调整特性,而不是在EDSR中 rescaling恒定。CA允许我们的网络进一步关注更多的信息特性。这一观察结果表明,非常大的网络深度和CA提高了性能。
Visual results. 在图5中,我们展示了缩放×4的可视化比较。对于图像“img_004”,我们观察到大多数比较方法无法恢复晶格,并且会产生模糊的伪像。相比之下,我们的RCAN可以更好地缓解模糊的伪影,并恢复更多的细节。对于图像“img_073”,大多数比较方法都会产生沿水平线的模糊伪影。更糟糕的是,对于裁剪后的图像的正确部分,FSR-CNN无法恢复线条。 其他方法会生成一些方向错误的行。 只有我们的RCAN才能产生更加忠实的结果。 对于图像“ Yumeiro-Cooking”,裁剪部分充满了纹理。 如我们所见,所有比较方法都有严重的模糊伪像,无法恢复更多细节。 同时,我们的RCAN可以明显地恢复它们,更加忠于真实图像。 这种明显的比较表明,具有更强大的表示能力的网络可以从LR空间提取更复杂的功能。
为了进一步说明上述分析,我们在图6中展示了8×SR的可视化比较。对于“img _040”图像,由于缩放因子很大,双三次的结果会丢失结构,产生不同的结构。这种错误的预缩放结果也会导致一些最先进的方(如SRCNN、VDSR和MemNet)产生完全错误的结构。即使从原始的LR输入开始,其他方法也无法恢复正确的结构。同时,我们的RCAN可以正确地恢复它们。对于较小的细节,如“TaiyouNiSmash”图像中的网络,在LR图像中可能会丢失细小的线条。当缩放因子非常大(如,8)时,LR图像对SR的信息非常有限,高频信息的丢失使得SR方法很难重建信息结果。大多数比较的方法不能达到这个目标,并产生严重的模糊伪影。然而,我们的RCAN可以获得更多有用的信息并产生更好的结果。
正如我们前面所讨论的,在BI退化模型中,高频信息的重构是非常重要和困难的,特别是在缩放因子较大的情况下(如,8),我们提出的RIR结构使得主网络能够学习剩余信息。信道注意(CA)进一步被用来通过自适应地调整通道特征来增强网络的表示能力。
4.4 Results with Blur-downscale (BD) Degradation Model
我们进一步将我们的方法应用于超分辨图像的模糊(BD)衰减模型(degradation mode),这也是文献[11,15,17]中最近经常使用的。
Quantitative results by PSNR/SSIM. 在这里,我们用7种最先进的方法来比较 3×SR 的结果:SPMSR, SRCNN, FSRCNN, VDSR, IRCNN, SRMDNF, RDN。
如表3所示,RDN在每个数据集上都实现了非常高的性能。同时,我们的RCAN可以在RDN上获得显著的增益。使用自集成,RCAN+可以获得更好的结果。与与在RDN网络中充分利用的层次特性相比,具有信道关注的深度RCAN网络具有更好的性能。这一比较结果也表明,研究 image SR网络中更深的网络是具有很大潜力的。
Visual Results. 我们还在图7中显示了可视化比较。对于“img_062”和“img_078”图像中具有挑战性的细节,大多数方法都存在严重的模糊伪影。RDN在一定程度上缓解了这种情况,可以恢复更多的细节。相比之下,我们的RCAN通过恢复更有用的成分来获得更好的结果。这些比较表明,非常深的通道注意引导网络缓解模糊现象。同时也证明了RCAN对BD衰减模型的强大能力。
4.5 Object Recognition Performance
Image SR还可以作为高级视觉任务(例如目标识别)的预处理步骤。我们评估了在目标识别上的性能,以进一步证明我们的RCAN的有效性。
这里我们使用与ENet相同的设置。我们使用ResNet-50作为评估模型,并使用来自ImageNet CLS-LOC验证数据集的前1000张图像进行评估。原始裁剪的224×224图像作为基线,而对于SR方法则将其缩小到56×56。我们使用4种最先进的方法(例如,DRCN , FSRCNN, PSyCo,和ENet-E)来提升LR图像,然后计算它们的精度。如表4所示,我们的RCAN实现了最低的top-1和top-5错误。这些比较进一步证明了我们的RCAN具有强大的表示能力。
4.6 Model Size Analyses
我们在图8中展示了关于模型大小和性能的比较。虽然我们的RCAN是最深的网络,但是它的参数数量比EDSR和RDN的少。我们的RCAN和RCAN+实现了更高的性能,在模型大小和性能之间有更好的权衡。这也表明,更深层次的网络可能比更广的网络更容易获得更好的性能。
5 Conclusions
我们提出了非常深的残差通道注意网络(RCAN)来获得高精度的image SR,其中的残差嵌套(residual in residual,RIR)结构使得RCAN可以通过LSC和SSC达到非常大的深度。与此同时,RIR允许大量的低频信息通过多个跳跃连接被绕过,使得主网络专注于学习高频信息。此外,为了提高网络的能力,我们提出了通道注意(CA)机制,通过考虑通道间的相互依赖关系,自适应地重新调整通道特征。在基于BI和BD模型的SR上的大量实验证明了我们提出的RCAN的有效性。RCAN在目标识别方面也显示出良好的结果。