****-Spark快速大数据处理-Spark
订阅后:请点击此处观看视频课程
****-Spark快速大数据处理-Spark
学习有效期:永久观看
学习时长:747分钟
学习计划:13天
难度:中
「口碑讲师带队学习,让你的问题不过夜」
讲师姓名:余海峰
技术总监/研发总监
讲师介绍:松鼠学苑创始人,大数据与人工智能领域高级研究员,著有《深入理解Flink:实时大数据处理实践》一书。原央行征信中心动产融资登记系统产品技术团队负责人、国内首批个人征信业务准备机构北京华道征信高级架构师、技术总监
☛点击立即跟老师学习☚
「你将学到什么?」
课程的主要内容包括:
1.ZooKeeper-分布式过程协同组件
2.Hadoop3-大数据基础组件3.Tez-Yarn底层计算引擎
4.Hive3-大数据仓库
5.Spark2实时大数据处理
6.Oozie5-大数据流程引擎
课程特点:
1.最新API: Hadoop3/Spark2/Hive3/Oozie5
2.手工搭建集群环境:编译+搭建
3.配套资源:分阶段镜像+课件+安装资源,其中安装资源包括案例源码、脚本等
4.案例为主:分模块案例+天池数据分析竞赛
5.故障教学
6.完整实战项目:天池数据分析
「课程学习目录」
第1章:课程总体介绍 |
1.什么是大数据 |
2.课程体系 |
3.集群拓扑 |
4.集群安装的软件情况 |
5.课程特点 |
6.VirtualBox集群环境基本操作-1 |
7.VirtualBox集群环境基本操作-2 |
8.课程起点准备 |
第2章:ZooKeeper-分布式过程协同组件 |
1.ZooKeeper概要 |
2.什么是分布式过程协同 |
3.分布式过程协同架构设计的难点 |
4.为什么选择ZooKeeper |
5.环境搭建与案例分析总体介绍 |
6.环境搭建 |
7.案例实战-分布式锁 |
8.案例实战-主从应用-1 |
9.案例实战-主从应用-2 |
10.案例实战-主从应用-3 |
11.案例实战-主从应用-4 |
12.ZooKeeper清理工作 |
第3章:Hadoop3-大数据基础组件 |
1.hadoop3基本集群构建概要 |
2.hadoop3基本集群安装-1 |
3.hadoop3基本集群安装-2-上 |
4.hadoop3基本集群安装-2-下 |
5.hadoop3基本集群安装-3 |
6.hadoop3基本集群安装-4 |
7.HDFS基本原理与基本操作-1-HDFS的架构目标 |
8.HDFS基本原理与基本操作-1-HDFS架构原理 |
9.HDFS基本原理与基本操作-2-HDFS基本操作 |
10.HDFS HA配置文件详解-1 |
11.HDFS HA配置文件详解-2 |
12.HDFS HA配置文件详解-3 |
13.HDFS FederationViewFS-1 |
14.HDFS FederationViewFS-2 |
15.HDFS FederationViewFS-3 |
16.Mapreduce基本原理-1 |
17.MR基本原理2-例子1 |
18.MR基本原理2-例子2 |
19.MR基本原理2-例子3-python版本 |
20.MR内部机制与调优1 |
21.MR内部机制与调优2 |
22.MR内部机制与调优3 |
23.MR内部机制与调优4 |
24.MR内部机制与调优5-例子上 |
25.MR内部机制与调优5-例子下 |
26.YARN的产生背景1 |
27.YARN的产生背景2 |
28.YARN架构1 |
29.YARN架构2 |
30.YARN基本操作命令 |
31.RM HA配置 |
32.YARN调度器配置 |
33.YARN应用编程实战1 |
34.YARN应用编程实战2 |
35.YARN应用编程实战3 |
36.YARN应用编程实战4 |
37.YARN应用编程实战5 |
第4章:Tez-Yarn底层计算引擎 |
1.Tez总体介绍 |
2.为什么要用Tez-1 |
3.为什么要用Tez-2 |
4.特征1 |
5.特征2-MR再讲解 |
6.Tez基本架构 |
7.编译1 |
8.编译2 |
9.安装1 |
10.安装2 |
11.编程实战1-总体架构与创建DAG-1 |
12.编程实战2-创建DAG-2 |
13.编程实战3-程序的总体流程 |
14.编程实战4-编译执行 |
第5章:Hive-大数据仓库 |
1.Hive总体规划 |
2.SQL on OLAP |
3.Hive Arch和Hive metastore以及和传统数据库的对比1 |
4.Hive Arch和Hive metastore以及和传统数据库的对比2 |
5.Hive环境安装1-安装总体介绍 |
6.Hive环境安装2-启用自动化集群启停脚本 |
7.安装Mysql |
8.安装Hive-1 |
9.安装Hive-2 |
10.基本命令行操作 |
11.HiveQL数据定义1 |
12.HiveQL数据定义2-数据库与hdfs文件对应关系 |
13..HiveQL数据定义3-外部表与内部表操作例子及表与hdfs文件管控关系 |
14.HiveQL查询-HiveQL查询及Tez与MR引擎性能对比 |
15.Hive锁 |
16.Hive执行计划与表分区 |
第6章:Spark快速大数据处理 |
1.Spark是类似如MR-Tez-Flink的计算框架 |
2.Spark是大一统的数据处理引擎1-综述 |
3.Spark是大一统的数据处理引擎2-为什么不选择RDD-数据分析的思想 |
4.Spark是大一统的数据处理引擎3-Hive On Spark VS Spark On Hive与框 |
5.我们选择Python-Scala-Java为编程语言 |
6.编译1 |
7.编译2 |
8.安装Spark-上 |
9.安装Spark-下 |
10.Spark集群模式 |
11.SparkSQL例子-pyspark版本 |
12.SparkSQL例子-python脚本通过spark-submit提交yarn集群 |
13.SparkSQL例子-scala版本 |
14.SparkSQL例子-spark-sql版本 |
15.Hive锁表处理 |
16.Spark编程模型与Spark基本架构 |
17.SparkContext与任务调度 |
18.Spark部署模式与计算引擎 |
19.安装Anaconda |
20.安装Jupyter-1 |
21.安装Jupyter-2 |
22.安装Toree-1 |
23.安装Toree-2-执行python和scala例子 |
24.修改集群启动脚本 |
第7章:Spark快速大数据处理淘宝数据实战 |
1.SparkSQL-DataFrame API概述 |
2.淘宝用户行为分析任务介绍 |
3.淘宝用户行为数据属性 |
4.数据加载 |
5.数据加载后的基本特征分析 |
6.任务1-用户访问流量分布分析-1-任务介绍 |
7.任务1-用户访问流量分布分析-2 |
8.任务1-用户访问流量分布分析-3 |
9.任务1-用户访问流量分布分析-4-pandas和Apache Arrow |
10.任务1-用户访问流量分布分析-5 |
11.任务1-用户访问流量分布分析-6 |
12.任务1-用户访问流量分布分析-7 |
13.任务1-用户访问流量分布分析-8-编程过程总结 |
14.任务1-用户访问流量分布分析-9-资源不释放故障处理 |
15.任务1-用户访问流量分布分析-10-按照小时统计 |
16.任务2-用户活跃度分析-DAU |
17.任务3-客单量分析 |
18.任务4-商品PV各环节转化率-1 |
19.任务4-商品PV各环节转化率-2 |
20.任务4-商品PV各环节转化率-3 |
21.任务4-商品PV各环节转化率-4 |
22.任务4-商品PV各环节转化率-5 |
第8章:Spark Structured Streaming简介 |
1.什么是流、动态表 |
2.Streaming WordCount原理 |
3.时间与窗口-1-基本概念 |
4.时间与窗口-2-例子 |
5.事件迟到 |
6.水印 |
7.进一步学习材料 |
第9章:集群环境对称处理 |
1.Spark案例后的集群环境对称处理 |
第10章:Oozie-大数据流程引擎 |
1.大数据工作流的必要性 |
2.Oozie工作流总体架构 |
3.Oozie工作流编程概念 |
4.编译 |
5.制作sharelib-上 |
6.制作sharelib-下 |
7.安装client和server-1-oozie-server的解压与配置 |
8.安装client和server-2-配置mysql |
9.安装client和server-3-sharelib的创建与oozie的启动 |
10.设置自动化启停脚本 |
11.编程实战概要 |
12.oozie基本编程技巧及cron action例子-上 |
13.oozie基本编程技巧及cron action例子-中 |
14.oozie基本编程技巧及cron action例子-下 |
15.Shell Action-上 |
16.Shell Action-下 |
17.MR Action-上 |
18.MR Action-中 |
19.MR Action-下 |
20.Spark Action-上 |
21.Spark Action-下 |
22.PySpark Action-上 |
23.PySpark Action-下 |
24.Hive2 Action-上 |
25.Hive2 Action-下 |
26.总结 |
「7项超值权益,保障学习质量」
- 大咖讲解
技术专家系统讲解传授思路与实战。
- 答疑服务
专属社群随时沟通与讲师答疑,扫清学习障碍。
- 课程资料+课件
超实用资料,覆盖核心知识,关键技能,方便练习巩固。
- 常用实战
企业常见实战案例,带你掌握Python在工作中的不同运用场景。
- 大牛技术大会视频
2019Python开发者大会视频免费观看,送你一个近距离感受互联网大佬的机会。
- APP+PC随时随地学习
满足不同场景学习需求,不受空间、地域限制。
- 内推机会
****联合大厂博客专家,为优秀学员推荐具有竞争力的工作机会 。
☛点击立即跟老师学习☚
「什么样的技术人适合学习?」
- 想进入技术行业,但是面对多门编程语言不知如何选择,0基础的你
- 掌握技术单一、冷门,迫切希望能够转型的你
- 想进入大厂,但是技术不够丰富,没有竞争力的你
「悉心打造精品好课,13天学到大牛3年项目经验」
【完善的技术体系】
技术成长循序渐进,帮助用户轻松掌握
掌握Spark知识,扎实编码能力
【清晰的课程脉络】
浓缩大牛多年经验,全方位构建出系统化的技术知识脉络,同时注重实战操作。
【仿佛在大厂实习般的课程设计】
课程内容全面提升技术能力,系统学习大厂技术方法论,可复用在日后工作中。
☛点击立即跟老师学习☚
「你可以收获什么?」
掌握Hadoop3/Tez/Spark2/Hive3/Oozie5实战方法
收获大数据处理的方法论
数据分析实战过程(以天池大赛为例子)