BT500-BT1788主观质量评价
视频的最终接收者是人类,所以对视频来说最重要的评价指标是人的主观感受,同时这种主观评价指标对于比较不同内容的视频、不同算法、促进不同实验室的信息交换等至关重要。所以需要一种标准的主观测量方法来计算这种指标。
ITU-R颁布的BT.500《电视图像质量的主观评定方法》和BT.1788《对多媒体应用中视频质量的主观评估方法》对主观测试方法进行了规定。
1、观测条件
下表列出了BT.1788建议的观测条件
对于观测距离和水平观测角度BT.500建议如下:
2、源信号
源信号直接提供基准图形以及测试中的系统的输入。源片段的质量应尽可能高。作为一个指导原则,
视频信号应使用 YUV(4:2:2、4:4:4 格式)或 RGB(24 或 32 位)格式。当实验者需要对来自不同实验室的结果进行比较时,需要使用一组公共的源片段,以消除更大的变化源。
3、测试材料选择
测试场景的数目和类型对解释主观评估的结果而言是至关重要的。对于特定的测试问题需要选择相应的测试材料。
4、观测者
观测者的数量应达到15人以上,他们应当不是专家,在某种意义上,他们与图形质量没有直接利害
关系,只是作为其日常工作的一部分,并且他们不是经验丰富的评估者。但是对于特殊的测试需求,也可以使用专家观测者。
5、评估说明
应仔细向评估者介绍评估方法、损伤类型或可能出现的质量因子、等级评定尺度、时间安排等。除了
那些在测试中使用、但具备可比灵敏度的训练片段外,展示待评估损伤范围和类型的训练片段应与场景一 同使用。
6、评估方法
6.1双刺激损伤尺度(double-stimulus impairment scale ,DSIS)方法
DSIS方法是指在测试时间内(一般不超过半小时)受试者会被随机展示多组序列,每组序列包含两条序列,第1条是没有损伤的序列,第2条是添加了各种损伤的序列,测试者观看完一组序列后即可根据感受进行打分。整个测试完成后即可对每种序列和每种损失类型计算平均得分。
打分采用五级制,如下:
5 | 感受不到损伤 |
---|---|
4 | 感受到了损伤,但是不厌烦 |
3 | 轻微厌烦 |
2 | 厌烦 |
1 | 很厌烦 |
6.2双刺激连续质量尺度(double-stimulus continuous quality-scale,DSCQS)方法
DSCQS中也会向受试者展示多组序列,但是受试者不知道每组序列中哪一条有损伤哪一条没损伤,为方便我们称每组的两条序列为A和B。
DSCQS有两种变体:
变体1:只有一个受试者,对于每组序列他可以自由选择在AB间多次切换直到可以完成判断并打分。
变体2:同时有多名受试者,在开始打分前会将所有序列播放一次或多次使受试者有一个心理预期,然后再次将序列播放一次或多次同时受试者开始打分。重复播放次数由测试序列长度决定,可参考BT.500。
打分采用的是连续分值,但是分数会被分到5个区间,受试者需要对每组的AB序列分别打分。下图是一个典型的打分表。
注意:最好不要将DSCQS的结果作为绝对结果,这可能会造成较大误差,应该比较的是每组的相对结果。
6.3单刺激(Single-stimulus,SS)方法
常用的SS方法有3类:
-
Adjectival categorical judgement methods
在这种测试中,受试者需要对测试集进行判断和打分,需要判断测试序列是否包含某种属性及其程度,根据ITU-R质量和损伤尺度采用五级打分制。
-
Numerical categorical judgement methods
ITU-R BT.1082研究了这种方法,使用11级类别。
-
Non-categorical judgement methods
受试者需要对每条序列打分,有2种打分方式。
a.连续尺度:给出一个线段,一端表示程度最轻另一端程度最重,受试者需要根据序列选择线段上的一个点代表其分值。
b.数值尺度:受试者需要对每条序列给一个具体数字(如1-100间的一个数字)。
6.4刺激-比较(Stimulus-comparison,SC)方法
CS方法中受试者需要给出每组测试序列的相对关系。
常用的CS方法也有3类。
1.Adjectival categorical judgement methods
和SS类似,只不过是根据ITU-R规定的比较尺度打分。
2.Non-categorical judgement methods
受试者需要给出每组序列的2个成员的相对关系值。有2种评分方式,连续尺度和数值尺度,同SS。
3.Performance methods
每组序列中,一条序列带有一定程度的损失,另一条序列可能带有不同程度损失或者没有损失。受试者会被问及哪条序列损失更严重或哪条序列带有损伤,回答的准确性和速度会被作为评分。
6.5多媒体视频质量(Subjective Assessment of Multimedia Video Quality,SAMVIQ)的主观评估
在该方法中,观测者准许使用一个序列的若干个版本。当所有版本都经观测者评定后,可对之后的序列内容进行评估。 不同版本可由观测者通过计算机图形接口随机选择。根据需要,观测者可以停止、评审并修改某个片 段各个版本的评分。该方法包括没有损伤的序列,以及相同序列的若干个版本,这些版本包括有损的和无损的序列。序列的各个版本都单独显示,并使用一个类似于在DSCQS 方法中使用的连续质量尺度来评价。因此,该方法在功能上与利用随机访问的单刺激方法十分类似,但只要观测者想要观测,他就可以观测无损序列,这使得该方法类似于使用一个基准的方法。
SAMVIQ 质量评估方法使用连续质量尺度,以提供对视频片段内在质量的测量。各个观测者在从 0 到 100 评级的连续尺度上移动一个滑条,该连续尺度用 5 个线性排列的质量项目来注释(很好、好、一般、差、 很差)。
此外还有单刺激连续质量评估(SSCQE)方法,同步双刺激连续评估(SDSCE)方法等,可以参阅BT.500
感兴趣的可以关注微信公众号Video Coding