【直击DTCC】Intel王道远安利 如何拥抱大数据云服务

【IT168 评论】随着云计算和大数据时代的来临,数据正在以前所未有的速度成为各个领域价值创造的核心驱动力。在此背景下,国内最受关注的数据库技术盛会——2017第八届中国数据库技术大会(DTCC2017)在2017年5月11-13日如约而至。

  

大会第二日,我们为大家带来了大数据云专场,将云和大数据有机的结合在一起时一个比较大的话题,论坛中我们邀请到了Intel亚太研发工程师王道远先生进行分享,接下来让我们走进大数据云服务,共同感受下大数据云服务的独特魅力:

【直击DTCC】Intel王道远安利 如何拥抱大数据云服务
▲Intel亚太研发工程师王道远

  

首先王道远向我们简单的介绍了Spark SQL,他认为随着Spark的广泛应用,在数据仓库中用Spark SQL进行批量查询已经较为常见。尽管Spark SQL已经能支持对丰富的数据源进行高效的数据处理,但对于秒级的查询需求,Spark SQL还有不足之处,而很多企业对此也有很大需求。并对相关的优化意见进行了简单的介绍:

  

他认为大规模数据集上的数据查询还不够快,以及定时任务式的作业更新结果不够及时。他提到Spark是为通用计算而设计的分布式计算引擎,针对即席查询,还可以进一步优化。

【直击DTCC】Intel王道远安利 如何拥抱大数据云服务

  

此外还向我们介绍了基于Spark SQL开发的开源解决方案:Spinach,他提到Spinach正是为了满足秒级甚至更高要求的即席查询需求。 他提到了Spinach的几大优势:

  

  • 成本低:能够充分利用现有硬件环境,开源软件。 

  • 效果好:能够类似传统数据库的索引,实测5倍性能提升。 

  • 简单易用:部署简单、维护方便、符合用户使用习惯。

  

具体来说,Spinach以Fiber为基本单位提供了一套细粒度的分层缓存机制,将数据缓存在堆外内存中,可以有效加速数据的加载。同时,Spinach拓展了Spark SQL的DDL,允许用户自定义索引,目前支持B+树索引和布隆过滤器,可以让用户根据数据特点定义高效的索引,进一步减少IO操作,提升查询效率。Spinach运行时与Spark SQL共享同一个进程,不会引入额外的维护成本。