论文阅读:Predictive View Generation to Enable Mobile 360-degree and VR Experiences
论文名字 |
Predictive View Generation to Enable Mobile 360-degree and VR Experiences |
来源 |
会议 |
年份 |
2018.7 |
作者 |
Xueshi Hou, Sujit Dey, Jianzhong Zhang, Madhukar Budagavi |
核心点 |
设计了一个多层LSTM模型 |
阅读日期 |
2020.9.17 |
内容总结 | |
文章主要解决的问题及解决方案: 问题:移动网络难以向360°视频和基于云/边缘的虚拟现实应用程序提供超高带宽和超低延迟,目前减少带宽的一种常见方法是只传输FOV,然而,为了响应用户头部运动而提取和传输FOV会增加延迟,对用户体验造成不利影响。 解决方法:文中提出一种预测视图生成的方法,提取预测视图并提前传输,从而同时减少带宽和延迟。 文章的主要工作: 收集来自三星虚拟现实网站上的36000多名观众的19段视频的头部运动数据,将用户视野使用基于平铺的格式来表现视点特征,每个网络尺寸为30°× 文章内容: 第一部分:介绍了AR、VR的发展前景,提出了一种新颖的方法来实现具有头部运动预测功能的移动虚拟现实,使用深度学习LSTM模型的视点预测方法。实验数据收集自36000多名观众的19个360°/VR视频的大规模真实头部运动轨迹数据。 第二部分:描述了两个相关工作,一个是FOV引导的360°视频流研究,另一个是序列预测。其中,FOV引导的360°视频流是预测用户的视角,并提前交付预测的FOV,其相较于平铺和版本控制方法,除了能减少带宽外,还可以满足超低延迟要求。而序列预测是对给定历史序列的下一个值进行预测,文中介绍了多种基于传统的机器学习和多种基于深度学习的序列预测方法,因LSTM递归神经网络具有训练数据之间时间依赖性的记忆能力,故设计了一个LSTM模型,可以根据过去的轨迹预测未来视点的位置。 第三部分:介绍了系统概述,说明方案可应用于边缘设备中,方案具体实施是根据过去几秒从用户收到的头部运动和控制数据,并使用文中提出的视点预测模型,边缘设备执行预测视图生成,若实际视场在预测视场范围内,则HMD显示预测视场,若失败,则计算实际视场并从边缘设备发送。 第四部分:定义某些度量来显示数据集的特性,文中使用的数据集来自三星虚拟现实网站上的36000多名观众的19段视频的头部姿势数据,表1和图4的数据证明此数据样本具有多样性和复杂性,适合开发和验证文中提出的视点预测方法。图5显示的是在60秒内超过1500名观众的头部运动速度分布,文中依此图划分出中等运动序列和高运动序列。图6展示高速运动序列存在更多具有高概率的图块,说明图块分散,即用户兴趣点分散,若想准确地预测视点,具有一定的难度。 第五部分:介绍视点预测和视野生成方法。视点预测方法中,使用基于平铺的格式来表示视点特征,每个网络尺寸为30°× 第六部分:文中使用90%的数据用于训练,10%的数据用于测试,在keras深度学习框架下进行实验,并与SAE、BT、kNN方法进行性能比较,使用one-hot码来训练SAE和LSTM模型,而对BT和kNN使用简单表示。图10和表2展示了高运动序列和中等运动序列的FOV预测准确率和像素节省率,实验结果表明,当FOV预测精度达到95%时,本文设计的LSTM模型比其他三个模型实现了更大的像素节省。表3结果表示,在相对低运动的视频序列中,LSTM模型达到95%左右的高FOV预测精度时,选择4个分片生成FOV,能获得更大的像素节省。因此,实验表明,LSTM模型和FOV生成方法可以在显著减少所需像素的同时获得非常高的FOV预测精度。 实验结果: |