图像质量评价概述(评估指标、传统检测方法)

一、概述

在图像信息技术被广泛应用的情况下,对图像质量的评估变成一个广泛而基本的问题。由于图像信息相对于其它信息有着无可比拟的优点,因此对图像信息进行合理处理成为各领域中不可或缺的手段。在图像的获取、处理、传输和记录的过程中,由于成像系统、处理方法、传输介质和记录设备等不完善,加之物体运动、噪声污染等原因,不可避免地带来某些图像失真和降质,这给人们认识客观世界、研究解决问题带来很大的困难。 

比如,在图像识别中,所采集到的图像质量直接影响识别结果的准确性和可靠性;又如,远程会议和视频点播等系统受传输差错、网络延迟等不利因素影响,都需要在线实时的图像质量监控,以便于服务提供商动态地调整信源定位策略,进而满足服务质量的要求;在军事应用方面,战场监视和打击评估的效果也取决于无人机等航拍设备所采集到的图像或视频的质量。因此,图像质量的合理评估具有非常重要的应用价值。

从有没有人参与的角度区分,图像质量评价方法有主观评价和客观评价两个分支。主观评价以人作为观测者,对图像进行主观评价,力求能够真实地反映人的视觉感知;客观评价方法借助于某种数学模型,反映人眼的主观感知,给出基于数字计算的结果。


图像质量的主观评价
主观评价只涉及人作出的定性评价,它以人为观察者,对图像的优劣作出主观的定性评价。对于观察者的选择一般考虑未受训练的“外行”或者训练有素的“内行”。该方法是建立在统计意义上的,为保证图像主观评价在统计上有意义,参加评价的观察者应该足够多。主观评价方法主要可分为两种:绝对评价和相对评价。
绝对评价
所谓绝对评价,是由观察者根据自己的知识和理解,按照某些特定评价性能对图像的绝对好坏进行评价。通常,图像质量的绝对评价都是观察者参照原始图像对待定图像采用双刺激连续质量分级法(Double Stimulus Continuous Scale,DSCQS),给出一个直接的质量评价值。具体做法是将待评价图像和原始图像按一定规则交替播放持续一定时间给观察者,然后在播放后留出一定的时间间隔供观察者打分,最后将所有给出的分数取平均作为该序列的评价值,即该待评图像的评价值。国际上也对评价尺度做出了规定,对图像质量进行等级划分并用数字表示,也称为图像评价的5分制“全优度尺度”。(见表1.1)

图像质量评价概述(评估指标、传统检测方法)

相对评价
相对评价中没有原始图像作为参考,是由观察者对一批待评价图像进行相互比较,从而判断出每个图像的优劣顺序,并给出相应的评价值。通常,相对评价采用单刺激连续质量评价方法(Single Stimulus Continuous Quality Evaluation,SSCQE)。具体做法是,将一批待评价图像按照一定的序列播放,此时观察者在观看图像的同时给出待评图像相应的评价分值。相对于主观绝对评价,主观相对评价也规定了相应的评分制度,称为“群优度尺度”(见表1.2)。

图像质量评价概述(评估指标、传统检测方法)


图像质量客观评价

图像质量客观评价的基本目标是设计能精确和自动感知图像质量的计算模型。其终极目标是希望用计算机来代替人类视觉系统去观看和认知图像。在国际上,图像质量客观评价通常是通过测试多个影响影像质量的因素的表现,并通过计算模型获得图像质量量化值与人类主观观测值一致性的好坏来评估的。美国的Imatest和法国的DxO analyzer就是其中比较出名的图像质量客观评价系统。

图像质量评价概述(评估指标、传统检测方法)

Imatest和DxO analyzer有异曲同工之处,都是将影像质量评测拆分成多个测试项目,分别对每个项目进行测试、打分。两者相比,DxO analyzer的测试项目会稍微全面一些。

无论是Imatest还是DxO analyzer,两个测试系统都是通过“测试卡+光源环境+测试软件=测试结果”的模式。通过各种各样的测试卡和光源,在实验室中模拟各种环境,再把成像结果输入软件系统,由系统自动分析,最后得出结果。

我们都知道,我们之所以能看到东西,那是因为物品发出光或者是反射光线,所以,影像质量评测实验室往往会有两种光源:透射性和反射型。京立LLV-9300就是最为被广泛运用的光源之一,它能模仿非常多的环境亮度。

图像质量评价概述(评估指标、传统检测方法)

除了光源,测试卡也是非常重要的测试用具。针对不同的测试项目,测试卡也是各有不同,有的可以测试分辨率,有的可以测试MTF,有的可以测试色差……ISO 12233测试卡是测试镜头分辨率最权威测定方法,也是国际MTF成像曲线图和镜头评估的主要依据。

图像质量评价概述(评估指标、传统检测方法)

有人非常好奇,为什么影像质量评测需要准备这么多的测试用具,准备少一些测试卡、光源不行吗?

我们要知道,我们准备各种测试卡和光源是为了模拟各种光照环境,以及测试产品在这些光照环境下的表现。我们永远也无法猜到用户会在什么环境下使用我们的产品,就如之前特斯拉没有考虑到用户会在阳光灿烂的时候遇到一辆白色卡车,摄像头在这种情况下失灵而发生了第一起无人驾驶车祸。所以,我们能做到的是尽可能测试产品在各种环境下的表现,争取让产品在各种环境下都表现正常。

二、IQA评估指标

现在还不知道除了肉眼之外的好办法,只能先来列举一下传统IQA的一些评估指标(主要参考论文:《无参考图像质量评价综述》): 
.

1、MOS、DMOS

图像质量评价可以分为主观评价方法和客观评价方法, 

主观评价由观察者对图像质量进行主观评分, 一般采用平均主观得分(Mean opin-ion score, MOS) 或平均主观得分差异(Di®erential mean opinion score, DMOS) (即人眼对无失真图像和有失真图像评价得分的差异) 

Subjective quality assessment can be applied by visual perception or mean opinion score (MOS), which has been used in ITU-T p.910, a standard in multimedia services. Visual perception is predicated on the observers’ perception without a numerical quantification. MOS is defined as the average of the quality values ranging from1 to 5that are obtained from observers.

.图像质量评价概述(评估指标、传统检测方法)

缺点:

         耗费人力,不是自动的,不利于调整参数。

优点:

        根据人眼的感知,直观并能较精确地评价图片的质量


2、均方根误差(Root mean squared error, RMSE)

均方根误差比较算法评价值与人眼主观打分之间的绝对误差, 衡量算法预测的准确性 
.

3、线性相关系数(Linear correlation coe±- cient, LCC), 也称为皮尔逊(Pearson) 线性相关 系数

线性相关系数描述算法评价值与人眼主观打分之间的相关性, 也衡量了算法预测的准确性. 
.

4、Spearman 秩相关系数(Spearman0s rank ordered correlation coe±cient, SROCC)

Spearman 秩线性相关系数衡量算法预测的单调性(Monotonicity). 
.

5、Kendall 秩相关系数(Kendall rank order correlation coe±cient, KROCC)

Kendall 秩线性相关系数也衡量了算法预测的单调性. 
.

6、离出率(Outlier ratio, OR)

离出率表示超出主观得分§2 倍标准差(存在多个观察者的主观得分时) 的样本数百分比 
.

客观评价方法:对重建图像与原始图像的差别进行定量的计算。

方法主要分为两类:相对整个图像   与主观视觉感知相关

相对整个图像

相对整个图像的方法有:1:峰值信噪比PSNR(Peak Signal to Noise Ratio),2:结构相似性SSIM(structural similarity) ,3:均方误差MSE(mean square error),4: RMSE(root mean square error),5: corss-correlation ;

------------------------------------------------------------

PSNR:

优点:算法简单,检查的速度快。

缺点:呈现的差异值与人的主观感受不成比例。

-------------------------------------------------------------

SSIM:

优点:改进了PSNR的缺点。

缺点:结构相似性指标有其限制,对于影像出现位移缩放旋转(皆属于非结构性的失真)的情况无法有效的运作。为解决此问题,另已发展出在小波域进行运算的结构相似性指标,称作复小波结构相似性指标[8](英文:complex wavelet SSIMCW-SSIM)。

计算公式与原理:参考* 词条 结构相似性

源码:opencv源码可参考 opencv教程 : opencv的视频输入和相似度测量

--------------------------------------------------------------------------------------------------


--------------------------------------------------------------

MSE | PSNR | SNR | MAE 的 计算方法:

---------------------------------------------------

                    图像质量评价概述(评估指标、传统检测方法)

缺点:

求得的结果常常与人们的主观视觉效果不一致,这是因为均方误差、峰值信噪比和信号噪声比等都是从整体上反映原始图像和重建图像的差别,并不能反映一幅图像中少数像素点有较大灰度差别和较多像素点有较小差别等各种情况。显然,客观质量评价采用以上各式是对图像中所有的像素点同样对待的,不能全面反映人眼的视觉特性。

与主观视觉感知相关

与主观视觉感知相关的方法有: universal image quality index(UIQI),SSIM,VIF,FSI。(上述方法可在reference2中论文中找到)


============================================================================================================

方法的对比

针对于 image super-resolution 8种方法衡量图片super-resolution之后的质量的对比

图像质量评价概述(评估指标、传统检测方法)


IFC > NQM > WPSNR > MSSSIM > SSIM > UIQI > PSNR >VIF 

最好的方法为IFC
原因:
1:the IFC metric is designed to evaluate the loss of image information so that it extracts wavelet features with fo cus on high- frequency details rather than low-frequency comp onents. This me tric matches human p erception well as visual p erception is more sensitive to high-frequency details of SR images rather than low-frequency components. 
2:Second, the IFC metric is develop ed based on natural scene statistics using the Gaussian scale mixtures [37] and the BSD200 dataset contains numerous such images.

三、图像质量检测方式

本章只是简单来说说传统的,现在并不知道如何对图像内容质量进行检测的无监督办法。 
.

1、全、半参考方法

图像的某些特征与原始图像的相同特征进行比较, 比如小波变换系数的概率分布、综合多尺度几何分析、对比度敏感函数和可觉察灰度差异特征 等. 其相应的应用领域包括视频传输中的数字水印验证、利用副通道进行视频质量监控与码流率控制等. 
.

2、盲图像质量(Blind image quality, BIQ)

评价方法, 则完全无需参考图像, 根据失真图像的自身特征来估计图像的质量. 有些方法是面向特定失真类型的, 如针对模糊、噪声、块状效应的严重程度进行评价; 有些方法先进行失真原因分类, 再进行定量评价; 而有些方法则试图同时评价不同失真类型的图像. 无参考方法最具实用价值, 有着非常广泛的应用范围. 
.

3、机器学习的图像质量评价

(1)SVM + SVR 
算法则采用两步方案, 先用SVM 进行失真类型识别, 进而对特定失真类型建立SVR 回归分析模型,我们称之为SVM + SVR 模型. 
(2)GGD 
Moorthy 和Bovik的盲图像质量指数(Blind image quality index, BIQI) 分两步对图像进行评价, 先采用小波分解系数经广义高斯分布(Generalized Gaussian distribution, GGD) 模型拟合得到的参数作为特征, 由SVM 分类得到当前图像属于每个类的概率, 再采用SVR 对各个退化类型计算图像质量指标值, 最后根据概率加权得到总的质量评价指标; 在后续的基于失真辨识的图像真 
实性和完整性评价。 
.

4、基于概率模型的方法

这类方法首先建立图像特征与图像质量之间的统计概率模型, 大多采用多变量高斯分布描述概率分布. 对待评价图像, 提取特征后根据概率模型计算最大后验概率的图像质量, 或根据与概率模型的匹配程度(如特征间的距离) 估计图像质量.

在德克萨斯大学奥斯汀分校的Mittal 等 提出的自然图像质量评价(Natural image quality evaluator, NIQE) 算法中, 无需利用人眼评分的失真图像进行训练, 在计算其局部MSCN 归一化图像后, 根据局部活性选择部分图像块作为训练数据, 以广义高斯模型拟合得到模型参数作为特征, 采用多变量高斯模型描述这些特征, 评价过程中利用待评价图像特征模型参数与预先建立的模型参数之间的距离来确定图像质量

Abdalmajeed 和Jiao在对图像进行局部MSCN 归一化后, 基于韦伯分布提取自然图像统计特征, 并以多变量高斯分布描述它的概率分布, 评时计算待评价图像特征与无失真图像统计模型的距离作为图像质量评价度量. 根据概率建模是一种基于大量样本的统计方法, 概率数学模型的选择和样本量的大小是影响性能的关键, 现有方法大都基于多变量高斯模型进行概率建模, 主要是为了方便建模. 考虑到表征图像质量的特征维度很高, 复杂的模型将需要更多的数据量, 这类方法只有当数据量较大时才可能取得较好的效果。 
.

5、神经网络的方法

这类方法先提取一定的图像变换域或空间特征, 再基于已知质量数据训练一个神经网络回归分析模型, 由图像特征预测图像质量. 
Kang 等采用卷积神经网络(Convolutionalneural networks, CNN) 将特征提取和回归分析融入同一个网络中, 网络包括5 层, 图像经局部MSCN归一化后以32 £ 32 子块输入网络, 第一层卷积层由50 个滤波器提取特征, 第二层进行最大最小选择, 后面两层为800 节点的全连接网络, 最后一层为单个节点输出图像质量。

Hou 等也采用具有5 层网络结构的深度学习算法进行图像质量评价,综合特征提取、分类、后验概率计算等功能为一体,由3 级小波变换细节特征为输入, 训练过程先采用受限波尔兹曼机(Restricted Boltzmann machine,RBM) 进行层间学习, 再采用反向传递算法进行精细调整. 这两种算法的实验结果均明显优于其他无参考算法, 甚至在某些情况下优于全参考算法中较好的VIF