您的位置: 首页 > 文章 > 日志分析进入大数据Spark SQL的世界

日志分析进入大数据Spark SQL的世界

分类: 文章 • 2024-05-28 08:54:04

以慕课网日志分析为例进入大数据 Spark SQL 的世界

这篇blog是这个项目的总结，因为从别的地方学习过Hadoop、Spark的一些基础知识了，所以这部分略过。针对自身的不足，我抛出一些问题，自己思考。

什么是大数据？大数据公司的现存模式？
Hadoop生态圈长什么样子？
spark为什么这么快？
spark vs mapreduce
自己编译一套spark的源码来使用
spark sql的发展历史是什么样子的？
spark sql的架构（有助于理解spark sql为什么比hive on spark快）
为什么thriftserver/beeline比spark-shell要好一些？
RDD VS DF VS DS（经典了）
Extrenal Data Source API：spark是计算框架，但我们怎么去获取数据源呢？
（数据的源头，一切的开始）
spark sql都给了我们哪些好处？（愿景）
实战项目：梳理业务–》按一套固定的编程规范，编写业务代码–》解决问题
（涉及到了哪些知识点？有没有多种解决问题的办法？有没有更好的性能优化？）
spark sql 必会：加载数据—》处理数据—》输出数据

链接：https://pan.baidu.com/s/1qiprDWLfumnyX48sRURiuQ
提取码：zqqy