一种全景视频的主观质量评价方法（译）

A subjective visual quality assessment method of panoramic videos

ICME 2017

abstract

与传统的2D视频不同，在头戴式设备的帮助下，全景视频提供一个球面的观察方向，这样提高了沉浸式和交互式的视觉体验。但就我们所知，针对全景视频的主观质量评价方法很少。因此，我们在这篇文章中提出了一个评估失真全景视频质量的主观方法。首先我们建立了一个数据库，包含所有的观察者的观察方向信息。然后我们发现，不同主体的观察方向具有高度的一致性。通过这个发现，我们提出了主观测试的流程，得到DMOS分数。为了利用全景视频观看时的不一致性，我们又进一步提出了一个矢量化的DMOS分数。最终，实验结果证明了我们的主观VQA方法，在融合整体DMOS和矢量化DMOS时，衡量质量最有效。

Ⅰ . introduction

VR技术近几年飞速发展。全景视频是VR一个重要的发展方向，可以为人们提供360*180°的视野（FOV）。随着头戴式设备的发展，沉浸式甚至是交互式视觉经验可以通过全景视频实现，这都远远超过了2D视频。然而，似乎全景视频的体验质量（QoE）会由于压缩失真以及低分辨率而动态变化。这样的体验质量下降可能会引起主体的不适，MPEG的调查也对此有所证实。因此，对失真全景视频进行质量评价非常迫切。
主管和客观的方法对全景视频的VQA来说都很重要。对于客观VQA，近期工作已经考虑了全景视频的球形的特征。比如说，Yu提出了基于球的峰值信噪比（S-PSNR）,它在球体上的一组均匀采样点上计算PSNR，而不是矩形映射像素。通过插值算法，S-PSNR可以在不同投影格式下对全景视频进行客观质量评价。[1]提出了一种加权的PSNR，通过使用伽玛校正像素值来计算PSNR和SSIM。
但就我们所知，针对全景视频的主观质量评价方法很少。但是2D视频的主观质量评价却很多。在过去的二十年，国际电信联盟对2D视频提供了一系列的主观评价方法。DSCQS, SSCQS, SSCQE用来决定序列的播放顺序。除此之外，用于2D视频评级的两个广泛使用的指标：一个是平均意见得分（MOS），一个是偏差平均意见得分（DMOS）。近期，这些2D视频的方法被结合以用于其他类型的视频。比例如，Pourashraf等人采用经典主观VQA方法的DMOS来评估视频会议的主观质量。此外，国际电联还通过考虑立体视频的特性，扩展了基于DMOS的立体视频VQA方法。然而，尽管全景视频正在融入我们的日常生活中，但对全景视频的主观VQA的研究却很少。据我们所知，在[1]中提出了关于主观VQA的唯一工作，其中强制主体观看一个全景视频区域，然后简单地应用2D视频的传统主观VQA方法。但是，这与全景视频的*视觉体验不一致。
在本文中，我们提出了一种主观的VQA方法，以DMOS 的形式评估受损全景视频的质量损失，符合人类对全景视频的体验。首先，我们建立了一个包含40个主体的观察方向数据的数据库。然后，为了挖掘我们的数据集，我们发现不同人的观察方向在视频内容的引导下高度一致。基于这个发现，我们提出了两个VQA指标，整体DMOS（O-DMOS）和向量化DMOS（V-DMOS），可以分别对全局和局部的退化进行质量衡量。最后，我们验证了主观方法的有效性，通过计算不同分组的主观打分之间的SRCC系数。我们的贡献包括以下两点：
我们建立全景视频的观看方向数据库，对不同主体的观看方向进行一致性分析。
我们提出了一种新的全景视频主观VQA方法，利用我们对观看方向的一致性分析。

Ⅱ consistency analysis on viewing panoramic videos

由于全景视频的全向性，人们无法一眼就看到整个视频。相反，他们通常环顾四周，专注于吸引他们的东西。直观的是，在观看全景视频时，在观看方向上不同主体之间可能存在一致性。因此，本节主要讨论观看全景视频的一致性分析。

2.1 databse

我们建立了一个新的数据库，其中包含观看全景视频的40个主题的观看方向数据。总之，我们的数据库中有48个全景视频序列这些序列在其内容方面是多样的，并且可以根据视频内容对它们进行分类，如表1所示。
一种全景视频的主观质量评价方法（译）
这些序列都是从油管和VRCun下载下来的。然后他们被切成短的片段，长度在20-60秒之间。丢弃音轨以避免声学信息的影响。为了保证体验质量，序列的分辨率在3K（2880*1440）到8K（7680*3840）之间。
我们使用HTC VIVE，以及virtual desktop(VD)软件作为全景视频的播放器。总共有40名受试者（29名男性和11名女性）参加了该实验。对于每个受试者，所有48个序列以随机顺序播放。在Vive的软件开发工具包（SDK）的支持下，我们能够在观看全景视频时收集主体的姿势数据。然后，根据欧拉角获得观察受试者注意方向的数据，并且在我们的数据库中仅记录倾斜角和方位角。在实验期间，受试者坐在旋转椅上，被允许*转身，使得可以访问所有区域的全景视频。此外，为避免眼睛疲劳和晕动病，在观察16个序列的每个阶段后，休息5分钟。数据库链接： https://github.com/Archer-Tatsu/ head-tracking

2.2 data analysis

现在，我们分析数据库中的查看方向数据。首先，我们丢弃每个序列中第一秒的观察方向数据，因为所有对象的观察方向被初始化为位于前方区域的中心。然后将剩余数据用于我们的分析。我们的研究结果和相应的分析研究如下。
发现1：当观看视频时，受试者观看前方近赤道附近的区域更频繁。
图1显示了从所有40个主体获得的一些全景视频的观看方向的热图。我们可以从这个图中看到，大多数观察方向都落在位于赤道附近前部区域的小区域。我们进一步统计地计算属于全景视频的不同区域的观看方向。为此，图2显示了观察方向频率以及经度和纬度的散点图，这个结果是平均所有主体和所有全景视频的。在这个图中，还绘制了高斯拟合曲线。根据这个图，我们可以看到受试者倾向于观察前部和赤道附近区域，远远超过后部和极地区域。这完成了对发现1的分析，这类似于[5]的结论。
一种全景视频的主观质量评价方法（译）
发现2：通常，对于全景视频，不同人的观看区域存在高度一致性。
我们将40个主体随机分成两个组，A和B。然后我们分别对A和B，生成全部全景序列的热图，记为HA和HB。然后我们用线性相关系数计算HA和HB之间的关系：
一种全景视频的主观质量评价方法（译）
表2列出了每一个序列，两个组的CC值，可以看出平均的CC值达到了0.956。因此，我们可以得出结论，不同人的观看区域具有一致性。

发现3：根据全景视频的内容，不同人的观看方向可能集中于不同区域，尽管更可能被赤道和前区吸引。
一种全景视频的主观质量评价方法（译）

3. subjective VQA method

在本节中，我们将介绍用于全景视频的主观VQA方法。在3.1节中，我们介绍了VQA方法的主观测试的一般安排。在第3.2节中，为了得到原始的评级得分，主观测试的过程被设计出来。在第3.3节中，O-DMOS和V-DMOS被提议作为评估全景视频主观质量的度量，这些分数基于其原始分数。

3.1 general arrangements

全景视频与2D视频的播放设备不同，人的观看体验也不同。因此，我们开发了用于评估全景视频的主观测试的一般安排，不同于2D视频的测试。在下文中，我们从显示设备和主题的方面呈现主观测试的一般安排。
播放设备。 播放序列时使用HMD和它配套的播放器，而不是用播放2D视频的平面屏幕。因为大多数的全景视频都是通过HMD观看的。我们使用HTC VIVE 和 VD 软件作为播放器。除此之外，VD也提供了质量打分，允许人不取下HMD打分。由于可以从不同的观看方向观看全景视频，因此在观看全景视频时向主体提供转椅。
受试者。根据调查结果2，受试者的观察方向高度一致。因此，不需要像[1]中固定全景视频的观看区域。相反，受试者能够在我们的主观测试中*地观看全景视频的所有内容。这样，通过我们的方法评级得分与观看全景视频的日常视觉体验一致，其中受试者可以*地访问全景视频的所有部分。另外，观看全景视频时需要初始化观看方向，这与观看2D视频不同。在我们的测试中，所有人的观看方向应该被初始化为全景视频中的前区域的中心，因为Finding1发现主体更可能被该区域吸引。然而，如在结果2和3中分析的那样，在全景视频中仍然存在观看区域的轻微不一致。因此，与[8]中要求的至少15个人相比，应该需要更多的受试者参与全景视频评级质量的主观测试。我们建议至少需要20个人才能对全景视频的质量得分进行评分。

3.2 test procedure

一种全景视频的主观质量评价方法（译）
训练和测试。一般来说，我们的主观VQA方法的测试过程由两个会阶段组成：训练和测试阶段，如图4所示。首先引入培训过程，因为有些人可能不熟悉观看全景视频。在培训课程中，受试者被告知我们的测试目标。然后，他们需要观看一组不同质量的训练序列，以熟悉全景视频及其质量。之后，在进入测试环节之前需要短暂休息。在测试过程中，显示每个序列，然后显示3秒中灰色屏幕。与观察2D视频相比，受试者很容易感觉到视觉疲惫以及移动眩晕。因此，测试阶段的最长持续时间为30分钟。如果测试序列超过30分钟，则需要在测试期间添加HMD被取下的短暂休息（至少3分钟）。
质量评级。 主观测试阶段，采用SSCQS方法，这意味着全景视频序列以随机顺序显示，并且对于两个连续的序列需要避免具有不同质量的相同内容的序列。选择SSCQS的原因在于，当观看具有相同内容的全景视频时，主体可以继续观看看不见的区域，这与2D视频的观看特性不同。在查看每个序列后，要求受试者评定其质量。测试过程中的评分分数是通过连续比例滑块实现的，其中光标位于我们的质量评级GUI中。
数据收集。有两种数据需要收集然后进行处理。一个是如上所述的全景视频序列的原始主观质量分数。另一个是在序列显示期间的人的观看方向数据，其使得质量分数与观看的全景视频的区域相关。这也使得能够对V-DMOS进行计算，接下来将对此进行讨论。

processing of subjective scores

O-DMOS。给定每个序列的原始质量分数，我们遵循[13]中的2D视频的DMOS计算方法来计算O-DMOS，O-DMOS代表每个全景视频序列的整体质量。具体而言，针对每个受试者计算参考序列和受损序列之间的质量得分之间的差异。
一种全景视频的主观质量评价方法（译）

V-DMOS。根据Finding2，在全景视频的观看方向上仍然存在轻微的不一致。发现3进一步显示全景视频的所有区域都可能吸引人的注意力。因此，V-DMOS用于我们的主观VQA方法，通过利用收集的原始质量分数和观察方向数据来反映全景视频的不同区域的质量。首先，我们需要计算主体i在序列j中查看区域r的频率比，定义为f，满足下式：
一种全景视频的主观质量评价方法（译）
如果这个频率大于阈值，那么就将i加入到集合Ijr中。假设Ijr的尺寸为Njr，那么序列j中的区域r的DMOS值可以被定义为：

最终，V-DMOS的向量表示为：

其中R是全景视频中的区域总数。通常，存在6个全景视频区域：前，左，后，右，上和下。因此，我们的V-DMOS能够限制受损全景视频的整体和区域质量下降。

4.experiment

4.1 test benchmark and setting

在本节中，我们通过计算来自两组受试者的O-DMOS和V-DMOS值的相关性来验证我们的主观VQA方法的有效性。首先，选择[18]的所有12个未压缩全景视频序列（以YUV 4：2：0格式，分辨率4096×2048）作为参考。这些序列的持续时间均为12秒，帧速率为25 fps。然后，H.265用于以3比特速率压缩这12个序列，在ERP投影下。因此，总共有12个参考序列和36个受损序列。
然后，共有48名受试者参加了我们的VQA方法的主观测试。在测试中，要求受试者查看所有原始主观评分的所有序列。接下来，使用原始分数计算O-DMOS和V-DMOS。在这里，我们只是在V-DMOS计算中将阈值f0设置为1/6，因为我们的全景视频中有6个区域。注意，在使用[8]的主体筛选方案后，没有主体被拒绝用于计算O-DMOS和V-DMOS值。最后，在表3中列出了从48名受试者的原始质量得分获得的O-DMOS和V-DMOS的值。
一种全景视频的主观质量评价方法（译）

4.2 evaluation on effectiveness our VQA method

现在，通过评估不同受试者组的O-DMOS / V-DMOS评分之间的相关性来验证我们的主观VQA方法的有效性。所有48名受试者通过30次试验随机分成两个非重叠组，第1组和第2组。然后，评估这两组之间O-DMOS / V-DMOS值的相关性，平均超过30次试验。
一种全景视频的主观质量评价方法（译）
图5显示了由第1组获得的所有36个受损序列的排序O-DMOS / V-DMOS值的曲线，并且还绘制了按组1排序的序列的第2组的O-DMOS / V-DMOS值。从这一点可以看出，这两组O-DMOS / V-DMOS值的相关性非常高。

4.3 performance analysis of our VQA method

一种全景视频的主观质量评价方法（译）
有必要研究主观VQA方法所需的最小受试者数量。为此，我们测量具有不同受试者数量的两组之间的O-DMOS值的SRCC。因此，图6显示了SRCC以及组1和组2中受试者数量的增加，这也是30次试验的平均结果。我们可以看到，当受试者超过20时，SRCC保持稳定。因此，我们建议我们的VQA方法的最小受试者数量应为20。
找到不同区域的ODMOS和V-DMOS值之间的关系也很有趣。表4显示了不同区域的O-DMOS和V-DMOS值之间的SRCC，其由所有48名受试者计算。很明显，前区，左区和右区的V-DMOS与O-DMOS有很强的相关性。相反，后区和底区的V-DMOS通常与O-DMOS相关。然而，顶部区域的V-DMOS的SRCC相当小。这是因为顶部区域的V-DMOS值仅由少数受试者确定，因为大多数受试者不关注顶部区域。但是大多数情况下，O-DMOS和V-DMOS之间存在高度相关性，验证了V-DMOS度量标准的有效性。

结论

在本文中，我们提出了一种主观的VQA方法来评估受损全景视频的质量下降。与传统的主观VQA方法不同，我们的方法考虑360×180°FoV的全景视频。为了这样的考虑，我们进行了实验以获得新的数据库，该数据库包含观看48个全景视频序列的40个主体的观看方向。然后，我们从我们的数据库中发现，受试者一直喜欢看全景视频的前区中心，但在观看不同区域时仍然存在很少的不一致。根据我们的发现，开发了主观测试的一般安排和程序，使得每个全景视频序列的质量分数可以由一些受试者评定。根据原始质量得分，我们在主观VQA方法中提出了两个指标O-DMOS和V-DMOS，用于衡量受损全景视频的整体和区域质量降低。最后，实验结果验证了我们的主观VQA方法的有效性。