Two-Stream Convolutional Networks for Blind Image Quality Assessment
摘要
本文算法中提出了一种双流卷积网络,包括用于图像和梯度图像的两个子成分。这种设计的灵感来自使用双流来获得不同的输入等级信息,并且减少从单流中提取特征的难度。梯度流提取图像的结构细节信息,图像流提取图像的强度信息。除此之外考虑到图像中的局部不均匀分布的失真情况,增加了一个基于区域的全卷积层来使用输入图像块中间的周围信息,最后的分数是平均所有块的分数。
介绍
本文中提出的算法是受之前的一系列双流深度网络启发,双流网络通常能够增强性能通过融合来自多个资源的信息。图像的梯度反映图像的结构信息,并且具有鲁棒性,因此将图像的梯度图作为另一个输入流。该操作可以获得输入的不同等级的输入信息并且可以减少从单流中提取特征的难度。
考虑到图像的局部不均匀失真分布分情况,增加了一个基于区域的全卷积层来提取输入图像块中心周围部分的信息。
本论文的贡献可以概括为以下几点:
- 提出了双流深度神经网络,然后融合它们提取的特征来预测分数。
- 为了解决图像的局部非均匀失真问题,提出了基于区域的全卷积层来提取图像块的中心周围区域的信息。
- 在拓展的数据集上进行试验来证明算法的有效性。
网络结构
图像流网络在RGB图像上操作,某些失真与颜色像素的强度有关。梯度可以直接的反映图像的高频部分信息,可以用它来增强IQA的性能。除此之外使用基于块的处理来解决非均匀变化的失真。
双流结构
网络的输入是图像和梯度块,网络包含十层:卷积层为7-32,5-64,3-128,3-256,1-216,每层后面都有最大池化层,然后将双流网络的输出concat,后面接两个512的全连接层,最后是一个简单的回归来得到质量分数。
大多数的质量评价方法是直接使用像素来进行IQA,由于梯度对图像模糊和压缩敏感,因此本文认为使用多特征融合能够提高IQA的性能。高频部分的失真反映了失真的特征,因此同时使用图像和梯度可能更好的描述图像质量。
基于块的全卷积层
该层是为解决局部分布不均匀的失真问题,将图像块分成不同种类的失真类型和区域,因此提出的方法最后有9xC个通道,分别对应9块区域和C种失真,常见的总共有24种失真,因此产生24x9=216个通道,卷积完成后进行了最大池化,此时特征图变成1x1x216,再将两个通道的特征图进行concat,最后再接上两个512的全连接层,得出一个质量分数。
个人感想
该算法采用了双流通道,除了原始图像作为输入外,将梯度图像也输入到网络中,这样能够使网络提取出不同的表示失真的特征。为解决局部不均匀失真问题,提出了基于区域的全卷积层,即将通道分为图像所对应的失真区域和类型,但通过观察源代码发现这里在实际操作中其实只是确定了通道数,和一般的卷积操作没什么区别,之后也是直接concat两个卷积通道,而论文所阐述的只是想法,但代码中还是简单的卷积操作。可以采用的点是多通道输入,将其他方式处理过的图像也作为一部分输入,这样可以使网络学习特征更简单。在卷积核的选择中,使用了多种卷积核,这样可以提取到不同等级的特征。