超分模型总结
超分模型总结
简介
1.比较了30多个最先进的超分辨率卷积神经网络(Cnn),以及三种经典的和三种最近引入的具有挑战性的数据集来测试单个图像的超分辨率。
2.九个策略:包括线性的,残差的,多通道的(multi-branch),递归的(recursive),渐进的(progressive),基于注意力的和对抗性的设计。
3.超分辨率在许多其他领域有着重要的应用,例如场景中的目标检测(特别是小物体),监视视频中的人脸识别,医学成像,改进遥感影像,天文影像。
4.要约束解决方案空间,通常需要可靠的先验信息。
5.问题的复杂性随着尺度因子的增加而增加.在较高的因子下,丢失场景细节的恢复变得更加复杂,因此通常导致错误信息的再现
6.其目的是最小化与模型关联的数据保真度项。
其中,α是数据保真度项和图像先验Ψ的平衡因子。
α is the balancing factor for the the data fidelity term and image prior Ψ
7.
8.得到先验知识的方法很多,预测方法,基于边缘的方法,统计方法,基于patch的方法。本文利用深层神经网络学习先验。
基于预采样的模型
9.Early Upsampling Designs:早期的上采样设计是线性网络,首先对LR输入进行抽样,使其与期望的HR输出大小相匹配,然后学习层次特征表示以生成输出。
SRCNN
仅使用用于超分辨率的卷积层,SRCNN结构是直接的,它仅由卷积层组成,其中每个层(除了最后一个)后面接一个(RELU)共有三个卷积层,两个relu层。所有层次都是一样的。第一卷积层称为特征提取,它从输入图像中创建特征映射。第二个卷积层称为非线性映射,它将特征映射转换为高维特征向量。最后一个卷积层聚合特征映射以输出最终的高分辨率图像。利用均方误差(MSE)损失函数将输出重构的高分辨率图像和地面真实高分辨率图像之间的差最小化。
VDSR
避免深层网络的缓慢收敛,他们学习一种残差映射,生成HR和LR图像之间的差异,提供了一个更简单的目标,使得网络只关注高频信息。第二,梯度被夹在范围[-θ,+θ]中,这允许非常高的学习速率加速训练过程。
用残差将网络做的很深,在当时首先将残差应用到超分辨率领域,比较具有创新性,效果也较好。但是视觉效果并不是很好,细节恢复较差
DnCNN
https://www.jianshu.com/p/3687ffed4aa8
学习直接预测高频残差,而不是潜在的超分辨图像。DNCNN的结构非常简单,类似于SRCNN,因为它只堆叠卷积、批量归一化和Relu层。(由于BN的存在,计算成本很高。)
不同的是DnCNN并非每隔两层就加一个shortcut connection,而是将网络的输出直接改成residual image(残差图片)。每一层都zero padding,使得每一层的输入、输出尺寸保持一致。以此防止产生人工边界
IRCNN
提出了一套基于cnn的去噪器,可联合用于图像去噪、去模糊和超分辨率等低层视觉任务。该技术旨在将高性能鉴别cnn网络与基于模型的优化方法相结合,从而在图像恢复任务中实现更好的通用性。提出了三维块匹配算法(BM3D),把图像分成一定大小的块,根据图像块之间的相似性,把具有相似结构的二维图像块组合在一起形成三维数组,然后用联合滤波的方法对这些三维数组进行处理,最后,通过逆变换,把处理后的结果返回到原图中去,从而得到去噪后的图像。
具体地,利用半二次方分裂(HQS)技术对观测模型中的正则化和保真度项进行解耦。采用分裂变量的方法(ADMM、半二次分裂(HQS)等),可以将判别学习方法训练的CNN去噪器作为模块插入基于模型的优化方法中,以解决其他逆问题(例如去模糊)。CNN的去噪器由一组7个扩展的卷积层组成,这些卷积层与批量归一化和REL非线性层交织在一起。使用零填充的小的训练样本,以避免因卷积操作而产生的边界伪影。
其中HQS:https://www.cnblogs.com/wxl845235800/p/10734866.html
https://www.cnblogs.com/smartweed/p/10444039.html
后上采样
10.后采样网络对低分辨率进行学习,然后对网络输出附近的特征进行上采样,减少计算量
FSRCNN
提高srcnn的实时性。由四个卷积层和一个反卷积组成。FSRCNN输入第一层特征提取的是原模块,没有上采样。第二层是缩小层(shrink)用小的滤波器进行卷积,减小特征维度,第三层,用作非线性映射步骤,有助于学习非线性函数,因此对性能有很强的影响,非线性映射层中滤波器的大小设置为3,最后一层,扩张,是第二层的逆运算。网络最后一部分,是上采样和反卷积层,在反卷积中,stride是提高尺度的因子。非线性函数用的不是ReLu,而是PReLu,用的损失函数也是MSE。
ESPCN
一种可以对图像和视频进行实时操作的快速SR方法。在提取特征后,ESPCN在末端使用亚像素卷积层聚合LR特征映射,同时对高维空间进行投影重建HR图像。本文所使用的亚像素卷积运算实质上类似于卷积转置或反卷积运算。网络的输入是原始低分辨率图像,通过三个卷积层以后,再重新排列。亚像素卷积层包含两个过程,一个普通的卷积层和后面的排列像素的步骤。就是说,最后一层卷积层输出的特征个数需要设置成固定值,即放大倍数r的平方,这样总的像素个数就与要得到的高分辨率图像一致,将像素进行重新排列就能得到高分辨率图。损失函数用的是L1。采用分数核步长来提高输入特征映射的空间分辨率。使用单独的向上缩放内核来映射每个特征映射,在建模LR到HR映射过程中提供更多的灵活性。
残差网络
11.残差网络
EDSR
改进了ResNet,移除了BN以及外部的ReLu,多尺度,并共享参数,特定的层仅在输入和输出块附近并行地应用,以学习与尺度相关的表示。损失函数是L1.由于批规范化层消耗了与它前面的卷积层相同大小的内存,在去掉这一步操作后,相同的计算资源下,EDSR就可以堆叠更多的网络层或者使每层提取更多的特征,从而得到更好的性能表现。EDSR用L1范数样式的损失函数来优化网络模型。在训练时先训练低倍数的上采样模型,接着用训练低倍数上采样模型得到的参数来初始化高倍数的上采样模型,这样能减少高倍数上采样模型的训练时间,同时训练结果也更好。
CARN
级联残差网络(CANN)[38]使用ResNet块[43]来了解低分辨率输入和高分辨率输出之间的关系。模型的不同之处在于局部和全局级联模块的存在。在resnet基础上增加局部和全局的级联模块,中间层的输出被级联到更高的层,卷积采用same卷积(https://www.cnblogs.com/itmorn/p/11177439.html),方便特征层之间的级联,最后收敛到单个1 x1卷积层。L1lose以及adam优化
shuffle具体来说是channel shuffle,是将各部分的feature map的channel进行有序的打乱,构成新的feature map,以解决group convolution带来的“信息流通不畅”问题
级联:级联相关神经网络是从一个小网络开始,自动训练和添加隐含单元,最终形成一个多层的结构。(https://blog.****.net/xc_xc_xc/article/details/53163478)
多级网络
12.多级网络:多级设计由多个子网组成,这些子网通常是连续训练的。第一个子网通常预测粗特征,而另一个子网则改进初始预测。
FormResNet
基于DnCNN,不同之处在于损失层,第一个称为“Formatting layer”的网络包含欧氏和感知损失。诸如Bm3D之类的经典算法也可以替换该格式化层(启发:预处理可以用传统算法处理)第二个深层网络“DiffResNet”类似于DNCNN,并从第一个网络输入此网络的输入。格式层消除了统一区域中的高频损坏,而DiffResNet则学习结构化区域。
(a)是 FormResNet 的一般框架,其中橙色块表示格式层;(b) 是包含像素l2规范、梯度一致性和语义高级特征的跨级损耗网,以更好地描述网络推理与地面真分标签的相似性;(c) 是以卷积层作为 (a) 格式图层的递归形式ResNet。此结构可以以递归方式执行。
BTSRN
两层网络,一层LR,一层HR。LR级别的特征图与输入的patch大小一致,特征图利用反卷积进行上采样,随后是最近的相邻上采样,在低分辨率阶段和高分辨率阶段,使用了一种称为投影卷积的残差块变体。残差块由1×1卷积层作为特征映射投影,以减小3×3卷积特征的输入大小。
REDNet
使用编码器(基于卷积层)和解码器(基于反卷积层)。主要由卷积和对称解卷积层组成,每个卷积以及反卷积层的后面都添加了Relu,卷积层在保留对象结构和去除退化的同时提取特征映射。另一方面,反卷积层重构了图像中缺失的细节。skip connection 被添加到卷积和反卷积之间,卷积层的特征图与镜像反卷积层的输出相加之后送入非线性模块。网络的输入是双三次插值图像,最终反卷积层的结果是高分辨率图像。L2-规范进行收敛,损失函数是MSE
递归网络
13.递归网络:递归网络使用递归连接的卷积层或递归链接的单元,将复杂的问题分解成简单的小问题
DRCN
深度递归卷积网络多次使用相同的卷积层,优点是可以共享参数,DRCN[31]由三个较小的网络组成,即嵌入层、推理层和重构层。嵌入层将输入图像中提取出特征图,推理层,通过递归地应用由卷积和relu组成的单层来分析图像区域,每次递归都能增大感受野,推理层的输出是高分辨率特征图,通过重构层将其转换为原图。
H1~Hd是D个共享参数的卷积层。DRCN将每一层的卷积结果都通过同一个Reconstruction Net得到一个重建结果,从而共得到D个重建结果,再把它们加权平均得到最终的输出。另外,受到ResNet的启发,DRCN通过skip connection将输入图像与H_d的输出相加后再作为Reconstruction Net的输入,相当于使Inference Net去学习高分辨率图像与低分辨率图像的差,即恢复图像的高频部分
DRRN
(https://blog.****.net/xiuluoLK/article/details/84934921)
一种非常深的CNN模型(多达52个卷积层)在VDSR和DRCN中应用的只是从输入到输出的全局残差学习(GRL),GRL主要可以降低训练深层网络的难度。DRRN中又添加了局部残差学习(LRL),可以减少经过深层网络后图像细节的丢失。(LRL每几个堆叠层就可以有一个而GRL只会有一个)设计具有多路径结构的递归块。(在权重层计算前先进行**函数的计算,这样可以提高性能并使得网络更容易训练)
权重共享就是,第一个绿色的conv层训练后,在给第二个绿色的conv层训练前,该层的参数值和第一个训练后的值一样,第二个绿色conv层训练后参数更新,网络中所有的绿色conv层参数全部更新并且保持一致,利用的是随机梯度下降,以及MSE损失函数
identify branch:在我们的递归区内会有多条不同的路径
MemNet
memory network长期记忆网络
第一部分称为特征提取块,它从输入图像中提取特征。第二部分包括 堆叠在一起的一系列内存块,内存块由一个递归单元和一个门单元组成。递归 部分类似于ResNet,由两个卷积层组成,具有预**机制,并且与门单元的密集连接。每个门单元是一个具有1×1卷积的卷积层。网络由六个具有六个递归的存储器块组成。Memnet中的层总数为80。
FENet只是一些卷积,提取特征后,进入迭代模块,多个block递归堆叠,每个记忆模块(memory block)都参与了最终输出,即都连接到了ReconNet,并且不同的记忆单元之间密集链接,ReconNet是个卷积核为1X1的卷积层,负责将所有记忆单元的存储信息分别输出,最终所有记忆模块的输出均被输出。
记忆单元利用门控机制(gate unit)建立长期记忆,在每个记忆单元,门控单元自适应的控制不同的模块(block)在最终输出中所占的权重(weight),控制保留哪些单元,存储哪些信息。
采用的是MSE以及BSD随机梯度下降优化
逐步重建设计
14.逐步重建设计:对于大尺度的超分,预测多步的输出,即2×,接着是4×等等。
SCN
将稀疏编码的优点与深度神经网络的领域知识结合起来。所提出的基于稀疏编码的网络(SCN)[50]模拟了学习迭代收缩(LearnedIterative Shrinkage)和阈值算法(LISTA)来建立多层神经网络。特征提取之后送入LISTA网络。为了获得每个特征的稀疏编码,LISTA网络由有限数量的递归级组成。LISTA级由两个线性层和一个具有**函数的非线性层组成,该**函数在训练期间学习/更新的阈值。为了简化训练,作者将非线性神经元分解为两个线性缩放层和单位阈值神经元。两个缩放层是对角矩阵,这些对角矩互为倒数,例如,如果存在乘法缩放层,则在阈值单元之后进行除法。在LISTA网络之后,通过将稀疏代码和高分辨率字典在连续的线性层中相乘来重构原始高分辨率patch,作为最后的步骤,再次使用线性层,高分辨率patch被放置在图像中的原始位置以获得高分辨率输出。
LapSRN
https://blog.****.net/u010327061/article/details/80826654
利用了金字塔框架。LapSRN由三个子网络组成,它们将残差图像逐步预测到8×。每个子网络的残差图像被添加到相应缩放的上采样图像以获得最终的超分辨图像,它由三种类型的元素组成,即卷积层、relu层和反卷积层。在每个金字塔的层,将粗分辨率特征图作为输入,预测高频残差(high-frequency residuals),并使用反卷积(transposed convolutions)来进行向上采样到finer level。损失函数利用的是Charbonnier(一种可微分的损失函数变体,它可以处理异常值),损失在每个子网络上都使用。LAPSRN模型使用三种不同的模型来执行2倍、4倍和8倍的SR。他们还提出了一个称为多尺度(MS)LAPSRN的单一模型,该模型共同学习处理多个SR尺度,单个MSLapSRN模型的性能优于三个不同模型的结果。
密集连接网络
15.密集连接网络
为了最大化网络中所有层之间的信息流,作者将网络中的所有层两两都进行了连接,使得网络中每一层都接受它前面所有层的特征作为输入。
SR-DesNet
这种信息流从低到高的特征层避免了梯度消失问题,使学习紧凑的模型,并加快了培训过程。
第一种只有高层的特征图参与图像重建,第二种低层和高层特征图都一起参与重建,第三种,所有的特征层都参与重建。损失函数利用的是L2(MSE)。
RDN
残余密集网络(RDN)将skip-connection与密集连接结合起来。
主要包含四部分:
浅层特征提取网络(SFENet)表示前两个卷积层,用于提取浅层特征
残差密集块(RDBs)融合残差模块和密集模块,每个块还包含Local feature fusion 和Local residual learning
密集特征融合(DFF)包含Global feature fusion 和Global residual learning 两部分
上采样网络(UPNet)最后的上采样(超分任务需要)+卷积操作
充分利用层次特征表示来学习局部模式,在局部残差连接中,每个块的输入(图像或来自前一个块的输出)被转发到RDB中的所有层,并添加到RDB模块的输出中,以便每个模块更多地关注残差部分。由于密集的连接快速导致了高维输出,所以在每个RDB中局部特征融合方法(使用了1×1卷积)来减少尺寸的。在全局中,多个RDBS的输出被融合在一起(通过级联和1×1卷积运算),并且执行全局残差学习以组合来自多个模块的特征。
RDN和SRDenseNet 的区别:RDB内部没有稠密连接;SRDenseNet 使用L2 loss,RDB使用L1 loss;RDN通过3个方面改进SRDenseNet 中使用的传统DenseBlock模块:加入了contiguous memory (CM) mechanism 使得先前的RDB模块和当前的RDB模块都有直接接触;得益于local feature fusion (LFF) ,RDB模块可以容许更大的增长率;RDB中Local residual learning (LRL) 的应用增加了信息和梯度的流动。
D-DBPN
迭代地执行反向投影以学习LR和HR图像之间的反馈误差信号。对于从LR到HR图像的映射,只有前馈方法不是最佳的建模方法,反馈机制可以极大地帮助取得更好的结果。由一系列上下采样层组成,这些层紧密地连接在一起。在上采样特征图中显式地添加残差信号提供了误差反馈,并迫使网络将注意力集中在精细细节上。
多分支网络
16.多分支网络
与基于单流(线性)和跳过连接的设计相比,多分支网络的目的是在多个上下文尺度上获得一组不同的特征。
CNF:上下文融合网络
每个SRCNN网络的层数都不一致,每一个SRCNN的输出都会经过一个单独的卷积层,最终利用最大池化把他们融合到一起。先单独训练每个SRCNN,最后训练融合函数。利用的是MSE损失函数。
CMCS
有特征提取、级联子网络、以及重建网络。每个MR块由两个平行分支组成,每个分支具有两个卷积层。每个分支的残差连接被累加到一起,然后添加到两个分支的输出中。 CMSC的每个子网有四个MR块,MR块具有33、55和7*7的不同的感受野,以在多个标度处捕获上下文信息。之后跟着的是BN以及LeakyReLu。使用双三次插值对网络的输入进行上采样。
IDN
三部分:特征提取块(两个卷积层)、多层信息蒸馏块和重构块(一个反卷积层)。
所述蒸馏块由两个其它块(other block)、增强单元(一共用了四个)和压缩单元(1*1的卷积构成)组成,增强单元有6个卷积层,然后是Relu层;将第三个卷积层的输出进行切片,将其中的一半与block的输入进行拼接,将剩下的一半作为第四个卷积层的输入,将级联组件的输出与增强块的输出相加。
损失函数方面:首先利用(absolute mean error loss)绝对平均误差损失对网络进行训练,然后利用(mean square error loss)均方误差损失对网络进行微调
注意力机制网络
17.注意力机制网络
SelNet
选择单元充当卷积层之间的门,只允许从特征映射中选择值。由一个恒等映射和一个ReLU级联、一个1×11×1卷积层和一个sigmoid层组成。SelNet由总共22个卷积层组成,在每个卷积层之后都会添加选择单元。在SelNet中也采用了残差学习和梯度切换(梯度截断的一个版本截断,即通过某个阈值来控制系数的大小,若系数小于某个阈值便将该系数设置为0,这便是简单截断的含义https://blog.****.net/google19890102/article/details/47422821),以实现更快的学习。
RCAN
设计了一个残差中的残差(RIR)结构来构造深层网络,每个 RIR 结构由数个残差组(RG)以及长跳跃连接(LSC)组成,每个 RG 则包含一些残差块和短跳跃连接(SSC)。RIR 结构允许丰富的低频信息通过多个跳跃连接直接进行传播,使主网络专注于学习高频信息。还提出了一种通道注意力机制(CA),通过考虑通道之间的相互依赖性来自适应地重新调整特征。损失函数L1。
输入一个特征 input,我们首先进行一个卷积-Relu-卷积操作得到 f,然后 f 再经过一个 CA 模块进行重新缩放得到 x,最后将 x 和 input 相加得到输出特征。其中,卷积操作都采用 3×3 的卷积核
注意力机制模块:输入是一个 H×W×C 的特征,我们先进行一个空间的全局平均池化得到一个 1×1×C 的通道描述。接着,再经过一个下采样层和一个上采样层得到每一个通道的权重系数,将权重系数和原来的特征相乘即可得到缩放后的新特征,整个过程实际上就是对不同通道的特征重新进行了加权分配。其中,下采样和上采样层都利用 1×1 的卷积来实现,下采样层的通道数减少 r 倍,**函数为 Relu,上采样层的**函数为 Sigmoid
缺点:计算复杂度高
DRLN
densely residual Laplacian attention Network
DRLN的改进可归因于具有Laplacian注意和级联结构的创新模块。
1):模块化结构,2):密集连接的残差单元,3)级联连接,4)拉普拉斯注意
DRLN利用不同的连接,例如长连接、中连接、局部连接以及级联连接。在每个模块中,三个残差单元密集连接,然后,使用同一块中的拉普拉斯注意力模块对学习的特征进行加权。在每个块中的整个网络中重复该结构。
DRLM由三个子组件组成,即密集连接的残差块单元、压缩单元和拉普拉斯金字塔注意力模块通过拉普拉斯金字塔(通过将重建后的图像和原始的第j级的输入图像进行相减,就得到了j级的预测残差,此时得到的就是拉普拉斯金字塔了)来学习不同尺度的关键特征。
SRRAM
https://www.jianshu.com/p/ef62e48b4556
三部分组成:特征提取,特征上尺度和特征重建。特征提取和重建和其他网络类似。在特征上采样中提出了A Residual Attention Module残差注意力模块。RAM是SRRAM的一个基本单元,它由残差块、空间注意力和信道注意力组成,用于学习信道间和信道内的依赖关系。利用了adam优化以及L1损失。
通道注意力(CA)大多采用平均池化或者最大池化。而超分辨问题旨在恢复出图像的高频成分,因此利用通道的高频特性来学习注意力更加合理。所以,这里采取方差池化,也就是求得每个通道大小为 W×H 的特征图的方差。后续步骤与之前方法类似,通过两层神经网络来预测注意力图。
在最终模型中总共使用了64个RAM块。
多重退化网络
18.多重退化网络Multiple-degradation handling networks
ZSSR
Zero-Shot Super-Resolution
使用了一个简单的网络架构,使用测试映像的下采样版本进行训练。这里的目的是根据从测试图像创建的LR图像预测测试图像。一旦网络了解到LR测试图像和测试图像之间的关系,则使用相同的网络,将测试映像作为输入来预测SR图像。共有8个卷积层以及ReLu,由64个通道构成。
训练过程中先使用原始图片下采样的图片+噪声和数据增强(旋转((0◦; 90◦; 180◦; 270◦))+flip(vertical,horizontal ))等进行训练,测试的时候,先使用程序中的imresize将图片扩大为需要最终输出的大小,再输入网络输出超分后结果。
利用的是L1正则。
SRMD
(SRMD)采用级联低分辨率图像及其退化图。SRMD直接学习HR图像而不是图像的残差。提取特征——3×3滤波器尺寸的卷积层级联+ReLu+BN。模型的输入除了LR图,还有 degration map(blur kernel, noise level)
模糊核首先通过PCA 降为 t 维,然后 concatenate 一个 噪声 level v 变为 t+1维,将这t+1维 拉伸成 WxHx(t+1),得到 degration maps 就可以与输入图像 concatennate 了。
- 网络的输入为 WxHx(c+t+1) 维
- convolutional layers: 每一层包括 Conv(3x3) + Relu + BN 除了最后一层
3)最后使用 sub-pixel convolutionl layer 上采样(亚像素卷积在10ESPCN中有介绍)
生成对抗网络GAN
19.生成对抗网络GAN
SRGAN
其工作的主要亮点是由三个主要部分组成的多任务损失公式:编码像素级相似性的MSE损失;根据在高级图像表示(例如,深层网络特征)上定义的距离度量的感知相似性度量;一种对抗性的损失,它平衡了生成器和鉴别器之间的最小-最大博弈。利用的是人主观评分MOS。
EnhanceNet
这种网络设计的重点是在高分辨率超分辨率图像中创建可靠的纹理细节。enhanceNet 基于全卷积网络和残差学习原理。PSNR等衡量标准它们不遵守图像的感知质量这导致过度平滑的图像,没有尖锐的纹理。为了克服这个问题,Enhenet除了像素级MSE损失还使用了另外两个损失项:感知损失函数+纹理匹配损失。缺点是,当超分辨率高纹理区域时,提出的对抗性训练可能会产生可见的伪影。
感知相似性度量 在计算距离之前,图像首先通过可微函数ϕ映射到特征空间中,而不是在图像空间中计算距离。对于特征图ϕ,使用流行的VGG-19网络的预训练实现。 它由堆叠的卷积和池化层组成,以逐渐减小图像的空间尺寸并提取更高层的更高层特征。 为了同时捕获低级和高级功能,我们结合使用第二个和第五个池化层并在其功能**时计算MSE。
给定目标纹理图像,通过将从预训练网络中提取的统计信息与目标纹理进行匹配,来迭代生成输出图像。G为生成器。
SRfeat
在SR框架下提出了二种判别器,分别是图像域,还有特征域,使用附加鉴别器,辅助发生器产生高频结构特征,而不是噪声伪像。利用9*9的卷积提取特征,残差模块使用长连接,特征图利用pixelshuffle(利用亚像素采样)进行图像上采样,生成与目标图片一样的大小。利用感知损失以及L2损失。
在预训练阶段,作者通过最小化均方误差损失来训练网络。
对抗训练阶段,需要最小化这样一个损失函数:它包含了视觉上看起来相似的损失、图像GAN损失和特征GAN损失。
对抗生成器损失:
Lp为感知相似性损失,Lai是图片的损失(生成图片与HR图片在像素域上的损失),Laf是特征域的损失(用于生成特征域中的结构细节)
对抗判别器损失:
ESRGAN
在SRGAN的基础上,去除BN并加入密集块。每个密集块的输入也连接到相应块的输出,使得在每个密集块上有残差连接,以及包含全局连接,此外,作者还采用了一种称为相对论GaN的增强型鉴别器。首先通过L1损失函数”,然后使用经过训练的感知损失模型
BN层在较深的网路和GAN网络中更容易带来伪影问题,因此作者选择移除BN层。
对判别网络做出变更,本文选用了一种基于相对判别器(Relativistic Discriminator)的改进网络。
和传统SRGAN中的判别器D不同的是,原本判别器仅仅针对输入图x判断其是真实且自然的概率,而相对判别器尝试去预测真实图像xr相对生成结果(假的)xf更加真实地概率。
作者针对原始SRGAN中的感知损失(Perceptual Loss),提出了一种更加高效的感知损失函数,同时作者证明了末尾**函数对感知损失结果输出具有负面影响,因此作者选用了去掉VGG末尾后的网络从取得感知损失结果。
本文提出了一种高效的策略——网络插值。具体操作如下:首先训练一个以PSNR导向的网络GPSNR,之后再使用一个基于GAN网络的GGAN来进行调优,通过两个网络参数结合来提升生成结果。
总结各个算法
20.总结各个算法
①直接重建的方法,从LR到HR空间进行一步上采样,而累进重建(progressive reconstruction)则在多个上采样步骤中预测HR图像。
②常用的损失函数L1以及L2,早期L2比较多,现在L1比较多。L2损失的收敛性能比L1要差,L2损失对大的error有强的惩罚,对小的error的惩罚低,忽略了图像内容本身的影响。L1,可忍受异常值,相较于MSE和L2是没有那么平滑一些的
未来方向
21.未来方向:
①结合先验知识:用于SR的当前深层网络是以端到端方式学习的数据驱动模型。在这种情况下,如果已知传感器、成像对象/场景和采集条件的信息,可将有用的先验设计成获得高分辨率图像。
②目标函数以及评价方式
③ 统一解决方案:实际中图像经常有多种退化方式同时发生,而当前对于SR开发的模型通常只限于一种情况,并且在存在其它退化的情况下会受到损害。如何同时为几个低级别的视觉任务设计性能良好的统一模型是一个挑战。
④无监督学习:上面提出的zero-shot方案,在输入图像已经具有较差的分辨率时,该解决方案不能工作。
⑤更高的放大倍数:很少有SR的目标超过8倍。
⑥任意的放大倍数
⑦现实场景:在真实场景中遇到的实际LR图像的分布与现有提出的模型考虑的双三次差值完全不同。