Stereoscopic image quality assessment by deep convolutional neural network
摘要
受人脑内部生成机制(IGM)的启发,即大脑首先分析感知信息然后提取有效的视觉信息,本文提出了一种双通道DCNN来预测图像质量。首先设计一个孪生网咯来提取左右视图的高级语义特征来模仿大脑的信息提取过程;之后通过卷积算子将左右视图的高级特征组合来模拟大脑的信息交互过程,最终交互处理后的信息被用来预测图像的质量分数。
介绍
直接使用2D图像质量评级算法来评价3D图像,在图像是对称失真的情况下可以获得准确的评价结果,但在非对称失真的情况下效果比较差,因此本文算法的贡献如下:
- 受内部生成机制影响,提出使用深度卷积网络来提取高级立体图像的高级语义信息
- 考虑到双目融合视觉特性,提出了通过融合左右视图的高级语义信息来模拟交互过程
算法框架
首先将左右图像输入到孪生网络中,其包含四组卷积层,并且提取左右图像的高级语义信息,在这之后提取高级语义信息,并且通过卷积算子融合,来模拟HVS中视觉信息的交互过程,最后使用FCN将特征图变成特征向量来进行图像的质量评价。
框架的详细结构
输入图像大小为80x80,使用3x3的卷积核堆叠来提取高级语义信息,总共四组卷积框架,前三层卷积框架有两层,后一层卷积框架有四层卷积,每个卷积框架都包含一个最大池化层,第一部分提取高级语义信息,第二部分将语义信息进行融合,这样可以获得立体图的全部特征图。
每层的具体结构
个人感想
总体来看该算法没有什么创新的地方,结构也是中规中矩的,只是在左右视图融合时不是在最后融合的,而是提前融合,再采取卷积进行特征提取,其他的没有什么创新的地方。