日志分析 进入大数据Spark SQL的世界
以慕课网日志分析为例 进入大数据 Spark SQL 的世界
这篇blog是这个项目的总结,因为从别的地方学习过Hadoop、Spark的一些基础知识了,所以这部分略过。针对自身的不足,我抛出一些问题,自己思考。
- 什么是大数据?大数据公司的现存模式?
- Hadoop生态圈长什么样子?
- spark为什么这么快?
- spark vs mapreduce
- 自己编译一套spark的源码来使用
- spark sql的发展历史是什么样子的?
- spark sql的架构(有助于理解spark sql为什么比hive on spark快)
- 为什么thriftserver/beeline比spark-shell要好一些?
- RDD VS DF VS DS(经典了)
- Extrenal Data Source API:spark是计算框架,但我们怎么去获取数据源呢?
(数据的源头,一切的开始) - spark sql都给了我们哪些好处?(愿景)
- 实战项目:梳理业务–》按一套固定的编程规范,编写业务代码–》解决问题
(涉及到了哪些知识点?有没有多种解决问题的办法?有没有更好的性能优化?) - spark sql 必会:加载数据—》处理数据—》输出数据
链接:https://pan.baidu.com/s/1qiprDWLfumnyX48sRURiuQ
提取码:zqqy