论文阅读：Predictive View Generation to Enable Mobile 360-degree and VR Experiences

论文名字	Predictive View Generation to Enable Mobile 360-degree and VR Experiences
来源	会议
年份	2018.7
作者	Xueshi Hou, Sujit Dey, Jianzhong Zhang, Madhukar Budagavi
核心点	设计了一个多层LSTM模型
阅读日期	2020.9.17
内容总结
文章主要解决的问题及解决方案：问题：移动网络难以向360°视频和基于云/边缘的虚拟现实应用程序提供超高带宽和超低延迟，目前减少带宽的一种常见方法是只传输FOV，然而，为了响应用户头部运动而提取和传输FOV会增加延迟，对用户体验造成不利影响。解决方法：文中提出一种预测视图生成的方法，提取预测视图并提前传输，从而同时减少带宽和延迟。文章的主要工作：收集来自三星虚拟现实网站上的36000多名观众的19段视频的头部运动数据，将用户视野使用基于平铺的格式来表现视点特征，每个网络尺寸为30°×30°，则360°可分为72块，根据过去2s的视点轨迹来预测视点，设计one-hot编码，将视点表示为72×10的矩阵V，V的元素为0或1。先前的视点分片序列输入本文提出的多层LSTM模型中，最终输出72个分片上的预测概率，选择m个概率最高的分片，组合成预测视场，高质量地传输预测视场，其余分片保存空白。在实验部分，文中比较了LSTM模型FOV的预测精度与SAE、BT、kNN模型FOV的预测精度，得出在低运动序列、中等运动序列和高运动序列中，LSTM模型FOV的预测精度优于SAE、BT、kNN模型的实验结论，并相较于上述模型拥有更大的像素节省，达到减少带宽和延迟的目的。文章内容：第一部分：介绍了AR、VR的发展前景，提出了一种新颖的方法来实现具有头部运动预测功能的移动虚拟现实，使用深度学习LSTM模型的视点预测方法。实验数据收集自36000多名观众的19个360°/VR视频的大规模真实头部运动轨迹数据。第二部分：描述了两个相关工作，一个是FOV引导的360°视频流研究，另一个是序列预测。其中，FOV引导的360°视频流是预测用户的视角，并提前交付预测的FOV，其相较于平铺和版本控制方法，除了能减少带宽外，还可以满足超低延迟要求。而序列预测是对给定历史序列的下一个值进行预测，文中介绍了多种基于传统的机器学习和多种基于深度学习的序列预测方法，因LSTM递归神经网络具有训练数据之间时间依赖性的记忆能力，故设计了一个LSTM模型，可以根据过去的轨迹预测未来视点的位置。第三部分：介绍了系统概述，说明方案可应用于边缘设备中，方案具体实施是根据过去几秒从用户收到的头部运动和控制数据，并使用文中提出的视点预测模型，边缘设备执行预测视图生成，若实际视场在预测视场范围内，则HMD显示预测视场，若失败，则计算实际视场并从边缘设备发送。第四部分：定义某些度量来显示数据集的特性，文中使用的数据集来自三星虚拟现实网站上的36000多名观众的19段视频的头部姿势数据，表1和图4的数据证明此数据样本具有多样性和复杂性，适合开发和验证文中提出的视点预测方法。图5显示的是在60秒内超过1500名观众的头部运动速度分布，文中依此图划分出中等运动序列和高运动序列。图6展示高速运动序列存在更多具有高概率的图块，说明图块分散，即用户兴趣点分散，若想准确地预测视点，具有一定的难度。第五部分：介绍视点预测和视野生成方法。视点预测方法中，使用基于平铺的格式来表示视点特征，每个网络尺寸为30°×30°，则360°可分为72块，根据过去2s的视点轨迹来预测视点，文中设计了one-hot编码，将视点表示为72×10的矩阵V，V的元素为0或1。同时，本文设计了一个多层LSTM模型，输入为先前的视点分片序列，模型第一层和第二层都是由128个LSTM单元组成，全连接层包含72个节点，最后经过softmax函数，输出72个分片上的预测概率。使用最小交叉熵损失函数训练模型，批大小epoch为30。视野生成方法中，定义视场预测精度为实际用户视图在预测视图范围内的概率，视野的生成选择m个概率最高的分片，组合成预测视场，高质量地传输预测视场，其余分片保存空白。用m的大小来平衡FOV预测精度和传输预测FOV所消耗的带宽。M越大，带宽消耗越大，FOV预测精度越高。而另一个FOV生成策略是同时传输剩余的低质量的分片，降低预测精度的风险。第六部分：文中使用90%的数据用于训练，10%的数据用于测试，在keras深度学习框架下进行实验，并与SAE、BT、kNN方法进行性能比较，使用one-hot码来训练SAE和LSTM模型，而对BT和kNN使用简单表示。图10和表2展示了高运动序列和中等运动序列的FOV预测准确率和像素节省率，实验结果表明，当FOV预测精度达到95%时，本文设计的LSTM模型比其他三个模型实现了更大的像素节省。表3结果表示，在相对低运动的视频序列中，LSTM模型达到95%左右的高FOV预测精度时，选择4个分片生成FOV，能获得更大的像素节省。因此，实验表明，LSTM模型和FOV生成方法可以在显著减少所需像素的同时获得非常高的FOV预测精度。实验结果：**

论文阅读：Predictive View Generation to Enable Mobile 360-degree and VR Experiences

相关推荐