【观察】重构分层存储架构,化解EB级存储挑战

【观察】重构分层存储架构,化解EB级存储挑战

申耀的科技观察

读懂科技,赢取未来!

【观察】重构分层存储架构,化解EB级存储挑战【观察】重构分层存储架构,化解EB级存储挑战【观察】重构分层存储架构,化解EB级存储挑战【观察】重构分层存储架构,化解EB级存储挑战

毫无疑问,我们正在快速迈进数据时代的新纪元。根据IDC 预测,到2025年,全球数据圈将扩展至 163 ZB,相当于2016年所产生16.1 ZB数据的十倍,这些数据在带来独特用户体验和众多全新商业机会的同时,也给企业提出了前所未有的挑战。

 

【观察】重构分层存储架构,化解EB级存储挑战

例如,对于俄罗斯和独联体(CIS)地区最大的社交网络平台VK而言,其月活用户就高达9700万,用户每日观看的视频和照片量达数百万级,因此这让VK的存储系统“不堪重负”,一方面,基于传统磁盘的存储系统已经难以应对新应用日益增长的数据存储与处理需求;另一方面,数据存储就占到了VK一半以上的预算,降本增效已刻不容缓。

在此背景下,VK和英特尔展开深入合作,基于英特尔傲腾技术和英特尔NVMe固态盘,对原有的分层存储架构进行了现代化改造,借助全新数据分层架构,并以2:1的比例整合服务器,最终让VK成功节省数亿美元。

从这个角度来看,VK与英特尔的成功合作,不仅为社交平台存储基础设施架构的改造和升级提供了重要的借鉴和参考,也为众多的互联网企业未来在新应用、新业务领域的探索与创新树立了很好的标杆作用。

EB级存储新挑战

创建于2006年的VK,是俄罗斯和独联体(CIS)地区最大的社交网络平台,其总部设在一座古香古色的圣彼得堡历史建筑缝纫机公司大楼之内,主要用户均为俄语区国家人群,俄罗斯用户占了一半以上,在哈萨克斯坦、白俄罗斯、乌克兰等东欧邻国的用户也不少,排名也都在前五之内。

VK过去几年获得了迅猛增长,仅在2018-2019年度,VK的月活用户就为9700 万,远高于四年前的6600万。每一天,VK 用户查看的帖子高达90亿条、观看的视频高达6.5亿个、发送的消息高达100亿条、点“赞”次数高达十亿次。

【观察】重构分层存储架构,化解EB级存储挑战

 

统计显示,在一年的时间里,用户就上传了约600PB的新数据到VK社交平台之上,其中包括照片和视频,而这些数据必须永久存储。同时,在整个VK的存储系统之中,目前共分布了高达1.1EB的数据,而EB级存储无疑给VK带来了很大的挑战,可以从三个维度来看:

首先,从成本角度看,由于所有数据都通过网络进行流传输,因此数据存储基础设施成为VK最大的成本支出也不足为奇。如今,存储成本已占到VK年度预算的60%至65%。同时,VK也希望减少服务器基础设施所需的设备数量,所以优化存储和整体硬件基础设施的TCO成本成为了VK的当务之急。

其次,从架构角度看,我们知道存储有热数据、温数据、冷数据以及冻结数据的划分,其中,热数据指的是最近上传到网络且仍被经常访问的数据;温数据则是已不再被频繁访问的数据。通常情况下,温数据是最长一个月前上传的数据,而冷数据是指很少被访问的数据。

VK在其CDN服务器上采用的是三层数据缓存结构,随着数据应用的变化,不同的数据需要不同的存储设备。此前,VK通过CDN服务商分发的冷数据存储遍布于俄罗斯的分布式数据网络中的硬盘上,温数据存储在SATA固态盘中,而热数据存储在DRAM(动态随机存取存储器)中。同时,基于Nginx Web服务器的数据库服务器,VK则使用SATA固态盘和硬盘来存储数据,使用DRAM来存储索引。但由于DRAM非常昂贵,因此VK急需一种更加经济高效的存储方案,来优化和重构其存储分层架构。

最后,从服务角度看,VK还希望进一步提升用户的使用体验。目前,VK拥有三个主要的数据中心,这些数据中心由19000台服务器组成,并由30个内容分发网络 (CDN) 提供支持,以此保证能够加快最热数据的访问速度。此外,为满足各种各样的用户设备需求,VK 还需要为每个图像存储多个副本,以长期保存用户的数据。

对此,VK副首席运营官 Roman Podpriatov说:“俄罗斯是一个疆土辽阔的国家,城市之间的距离很远,因此我们需要出色的CDN 缓存基础设施在靠近用户的位置存储数据,以便用户在使用我们的社交网络平台时能够获得良好的体验。”

不难发现,随着用户量的日益激增,VK原有的存储基础设施无论是从成本,架构和服务维度来看,都难以满足未来发展的需求。因此,VK迫切需要寻求一种更加高效和经济的方法,以化解EB级存储所带来的新挑战。

重构分层存储架构

基于此,VK决定和英特尔合作,并采用英特尔傲腾持久内存、英特尔傲腾固态盘和英特尔非易失性存储器(NVMe)固态盘等一系列创新的技术,对VK原有的分层存储架构进行了现代化改造,并以2:1的比例其整合服务器基础设施,最终为VK带来了“提质、增效、降本”的良好效果,具体而言:

一是,在架构现代化改造方面,VK将其CDN服务器中存储温数据的SATA固态盘升级为英特尔固态盘 D5-P4320 系列,将热数据从DRAM迁移到了英特尔傲腾固态盘 DC P4800X系列。同时,在全新的存储方案中,温数据则存储在基于NVMe的英特尔固态盘 D5-P4320系列上。此外,VK还通过引入英特尔傲腾持久内存取代DRAM来处理相关工作负载,由此降低单位比特成本。

 

【观察】重构分层存储架构,化解EB级存储挑战

VK 针对CDN服务器采用的全新存储解决方案增加了性能更出色的固态盘来存储温数据,增加了成本更低的快速存储器来存储热数据

Podpriatov 表示:“现在,我们可以将热数据和温数据均存储在固态盘上,从而减少了我们的DRAM用量。之前我们的固态盘不够快,无法为热数据提供良好的用户体验,因此我们只能将某些数据存储在 DRAM 中。但通过存储现代化改造,VK可以将数据全部存储在比内存便宜得多的固态盘之中。”

二是,在数据库索引方面,VK引入了英特尔傲腾持久内存来存储数据库索引,英特尔傲腾持久内存具有更强的内存寻址能力,可有效提升数据库性能。将数据从DRAM迁移到英特尔傲腾持久内存,可显著降低数据库索引的存储成本。不仅如此,由于数据库本身已从硬盘或SATA固态盘迁移到英特尔固态盘 D5-P4320 系列,也有效地提高了VK存储数据库的性能和存储密度。

 

【观察】重构分层存储架构,化解EB级存储挑战

VK 针对数据库服务器采用的全新存储解决方案将索引从昂贵的DRAM迁移到了性价比更高的英特尔傲腾持久内存

三是,在服务器整合方面,VK 还将其数据库服务器和CDN服务器的处理器,从英特尔至强金牌6230处理器升级为英特尔至强金牌6238处理器,从而更好的提高了存储和计算性能、优化总体拥有成本,并从计算能力中获得更为出色的每瓦性能。根据VK 2020年的预测,通过升级处理器,VK可将计算成本降低一半,将每瓦性能提高 33%。

 

【观察】重构分层存储架构,化解EB级存储挑战

与使用英特尔至强金牌6230处理器相比,VK 预计使用英特尔至强金牌6238处理器可节省的成本情况

四是,在性能优化方面,为了进一步优化存储并提高能效,VK 也正在部署采用英特尔Arria 10 GX FPGA的英特尔可编程加速卡(英特尔PAC),并运行CTAccel 图像处理器工作负载。通过采用低功耗、单槽、半高 PCIe 英特尔 PAC,VK 可在其各类服务器中轻松部署多个FPGA。

 

【观察】重构分层存储架构,化解EB级存储挑战

采用英特尔Arria 10 GX FPGA 的英特尔PAC 概念和内部视图

实际上,与在通用处理器上运行的软件相比,FPGA可以通过提供定制硬件大幅加速应用功能,VK可以通过利用 FPGA 的可配置性将高分辨率图像即时转换为所需的大小和格式。这样一来,VK 只需要存储高分辨率图像,从而减少了总体存储需求。

根据VK的评估,通过引入全新的存储解决方案,可以节省总计数亿美元的成本。新的存储解决方案让VK能够在 1U 服务器中存储高达0.4 PB的数据,而这只需更少的机架就能存储相同数量的数据,因此这样也会在空间、供电和散热方面得以不断实现成本节约。

除此之外,通过将数据从DRAM转移到固态盘和英特尔傲腾持久内存,VK可以在提供客户所需的性能的同时降低热数据层存储成本。可以说,相比以前的存储解决方案相比,现在VK能够以更低成本获得更高性能。

值得一提的是,在VK存储优化和改造的过程中,英特尔还全程提供了帮助。正如Podpriatov 所说:“从新产品开发到实施和生产,英特尔团队一直为我们提供帮助,并和我们分享了路线图和新技术,这让我们有机会在生产环境中实施新技术,了解这些技术是否适合我们,以及实施这些技术可以节省多少成本。”

背后三重价值启示

总的来说,从VK案例中,我们可以看到英特尔傲腾技术,通过突破存储和内存瓶颈,将前所未有的高容量、经济实用性和持续性结合在一起,有效支撑了VK的存储现代化改造,也让其业务保持了不断的创新,让VK可以更加从容的应对用户量的不断增长,并保持其良好的体验。而在这背后,其实也给中国的互联网用户带来了三重价值启示。

 

【观察】重构分层存储架构,化解EB级存储挑战

其一,对很多互联网用户而言,随着业务量的不断保障,传统的存储架构也到了需要现代化改造的关键时刻,因此依托创新的技术和产品,充分优化数据储存层级,以提升处理和响应速度,并降低成本已是当务之急。而英特尔傲腾持久内存,基于全新的内存和存储技术,可提供高容量、经济实惠性和持久性,对工作负载和服务进行优化,降低延迟并提高性能,可以说是是冷、温、热数据存储与管理的理想选择。

其二,数据库之于企业的重要性不言而喻,但过去由于数据库受到存储和内存受限,往往难以承载越来越多新的数据。因此,突破内存与存储限制,是帮助系统 性能提升的关键。那么,英特尔傲腾固态盘,则可以更好的对接英特尔傲腾持久内存,其高吞吐量、低延迟、高服务质量 (QoS )和高耐用性等特性,也会高效助力应用程序提升运行速度、降低延迟敏感型工作负载的事务处理成本,并改善数据中心的整体TCO。

其三,对于CDN,NFVi等需要更大内存,高效存储和成本可控应用来说,英特尔QLC 3D NAND 固态盘,借助全新设计的架构和 NVME PCIE的加持,也可以更好的提高容量并实现最优性价比,加速全闪存储的普及,极大提升用户的性能可扩展性。

由此可见,英特尔拥有完整的产品组合,可帮助更多的互联网用户从计算、网络到存储、内存和连接等各个关键领域实现现代化,从而实现最大的工作负载优化性能和更低的总体拥有成本,不仅为企业未来的创新提供更大的支撑,也将为化解即将到来的EB级存储新时代夯实关键的基石。

【观察】重构分层存储架构,化解EB级存储挑战

【观察】重构分层存储架构,化解EB级存储挑战

申耀的科技观察,由科技与汽车跨界媒体人申斯基(微信号:shenyao)创办,18年企业级媒体工作经验,专注产业互联网、企业数字化、渠道生态以及汽车科技内容的观察和思考。

【观察】重构分层存储架构,化解EB级存储挑战