【直击DTCC】Intel王道远安利如何拥抱大数据云服务

【IT168 评论】随着云计算和大数据时代的来临，数据正在以前所未有的速度成为各个领域价值创造的核心驱动力。在此背景下，国内最受关注的数据库技术盛会——2017第八届中国数据库技术大会(DTCC2017)在2017年5月11-13日如约而至。

大会第二日，我们为大家带来了大数据云专场，将云和大数据有机的结合在一起时一个比较大的话题，论坛中我们邀请到了Intel亚太研发工程师王道远先生进行分享，接下来让我们走进大数据云服务，共同感受下大数据云服务的独特魅力：

【直击DTCC】Intel王道远安利如何拥抱大数据云服务
▲Intel亚太研发工程师王道远

首先王道远向我们简单的介绍了Spark SQL，他认为随着Spark的广泛应用，在数据仓库中用Spark SQL进行批量查询已经较为常见。尽管Spark SQL已经能支持对丰富的数据源进行高效的数据处理，但对于秒级的查询需求，Spark SQL还有不足之处，而很多企业对此也有很大需求。并对相关的优化意见进行了简单的介绍：

他认为大规模数据集上的数据查询还不够快，以及定时任务式的作业更新结果不够及时。他提到Spark是为通用计算而设计的分布式计算引擎，针对即席查询，还可以进一步优化。

【直击DTCC】Intel王道远安利如何拥抱大数据云服务

此外还向我们介绍了基于Spark SQL开发的开源解决方案：Spinach，他提到Spinach正是为了满足秒级甚至更高要求的即席查询需求。他提到了Spinach的几大优势：

成本低：能够充分利用现有硬件环境，开源软件。　
效果好：能够类似传统数据库的索引，实测5倍性能提升。　
简单易用：部署简单、维护方便、符合用户使用习惯。

具体来说，Spinach以Fiber为基本单位提供了一套细粒度的分层缓存机制，将数据缓存在堆外内存中，可以有效加速数据的加载。同时，Spinach拓展了Spark SQL的DDL，允许用户自定义索引，目前支持B+树索引和布隆过滤器，可以让用户根据数据特点定义高效的索引，进一步减少IO操作，提升查询效率。Spinach运行时与Spark SQL共享同一个进程，不会引入额外的维护成本。

【直击DTCC】Intel王道远安利 如何拥抱大数据云服务

相关推荐

【直击DTCC】Intel王道远安利如何拥抱大数据云服务