技术控 | 基于SparkSQL的海量数据仓库设计与实践
点击上方“蓝字”可以关注我们哦
李振炜
奇虎360高级工程师
嘉宾简介:
2015年毕业后加入奇虎360系统部大数据团队,负责Spark分布式计算平台及相关服务的开发与维护,完成了整个公司hive作业向Spark的迁移,设计并实现基于SparkSQL的数据仓库,有丰富的海量数据场景下Spark改进调优经验。关注大数据计算和机器学习。
基于SparkSQL的海量数据仓库设计与实践
SparkSQL近年来以更强的性能优势正逐渐取代Hive在数据仓库领域强势地位,在奇虎360公司同样得到了大范围的推广使用。为了进一步提供提升SparkSQL的性能、扩展SparkSQL多数据源的处理能力,我们整合了ES、Kylin、Luence等开源组件,最终实现了一套统一的OLAP平台。本次分享会介绍SparkSQL的那些坑和整合ES、Kylin的设计思路以及借助Luence实现的海量数据即席查询的技术方案。
■议题详解
品读之后,
愿享同感。
by.数据库技术大会