****-Spark快速大数据处理-Spark

订阅后:请点击此处观看视频课程

****-Spark快速大数据处理-Spark

学习有效期:永久观看

学习时长:747分钟

学习计划:13天

难度:

 

口碑讲师带队学习,让你的问题不过夜」

****-Spark快速大数据处理-Spark

讲师姓名:余海峰

技术总监/研发总监

讲师介绍:松鼠学苑创始人,大数据与人工智能领域高级研究员,著有《深入理解Flink:实时大数据处理实践》一书。原央行征信中心动产融资登记系统产品技术团队负责人、国内首批个人征信业务准备机构北京华道征信高级架构师、技术总监

☛点击立即跟老师学习☚

 

「你将学到什么?」

课程的主要内容包括:

1.ZooKeeper-分布式过程协同组件

2.Hadoop3-大数据基础组件
3.Tez-Yarn底层计算引擎
4.Hive3-大数据仓库
5.Spark2实时大数据处理

6.Oozie5-大数据流程引擎

课程特点


1.最新API: Hadoop3/Spark2/Hive3/Oozie5
2.手工搭建集群环境:编译+搭建
3.配套资源:分阶段镜像+课件+安装资源,其中安装资源包括案例源码、脚本等
4.案例为主:分模块案例+天池数据分析竞赛
5.故障教学
6.完整实战项目:天池数据分析

 

「课程学习目录」

第1章:课程总体介绍
1.什么是大数据
2.课程体系
3.集群拓扑
4.集群安装的软件情况
5.课程特点
6.VirtualBox集群环境基本操作-1
7.VirtualBox集群环境基本操作-2
8.课程起点准备
第2章:ZooKeeper-分布式过程协同组件
1.ZooKeeper概要
2.什么是分布式过程协同
3.分布式过程协同架构设计的难点
4.为什么选择ZooKeeper
5.环境搭建与案例分析总体介绍
6.环境搭建
7.案例实战-分布式锁
8.案例实战-主从应用-1
9.案例实战-主从应用-2
10.案例实战-主从应用-3
11.案例实战-主从应用-4
12.ZooKeeper清理工作
第3章:Hadoop3-大数据基础组件
1.hadoop3基本集群构建概要
2.hadoop3基本集群安装-1
3.hadoop3基本集群安装-2-上
4.hadoop3基本集群安装-2-下
5.hadoop3基本集群安装-3
6.hadoop3基本集群安装-4
7.HDFS基本原理与基本操作-1-HDFS的架构目标
8.HDFS基本原理与基本操作-1-HDFS架构原理
9.HDFS基本原理与基本操作-2-HDFS基本操作
10.HDFS HA配置文件详解-1
11.HDFS HA配置文件详解-2
12.HDFS HA配置文件详解-3
13.HDFS FederationViewFS-1
14.HDFS FederationViewFS-2
15.HDFS FederationViewFS-3
16.Mapreduce基本原理-1
17.MR基本原理2-例子1
18.MR基本原理2-例子2
19.MR基本原理2-例子3-python版本
20.MR内部机制与调优1
21.MR内部机制与调优2
22.MR内部机制与调优3
23.MR内部机制与调优4
24.MR内部机制与调优5-例子上
25.MR内部机制与调优5-例子下
26.YARN的产生背景1
27.YARN的产生背景2
28.YARN架构1
29.YARN架构2
30.YARN基本操作命令
31.RM HA配置
32.YARN调度器配置
33.YARN应用编程实战1
34.YARN应用编程实战2
35.YARN应用编程实战3
36.YARN应用编程实战4
37.YARN应用编程实战5
第4章:Tez-Yarn底层计算引擎
1.Tez总体介绍
2.为什么要用Tez-1
3.为什么要用Tez-2
4.特征1
5.特征2-MR再讲解
6.Tez基本架构
7.编译1
8.编译2
9.安装1
10.安装2
11.编程实战1-总体架构与创建DAG-1
12.编程实战2-创建DAG-2
13.编程实战3-程序的总体流程
14.编程实战4-编译执行
第5章:Hive-大数据仓库
1.Hive总体规划
2.SQL on OLAP
3.Hive Arch和Hive metastore以及和传统数据库的对比1
4.Hive Arch和Hive metastore以及和传统数据库的对比2
5.Hive环境安装1-安装总体介绍
6.Hive环境安装2-启用自动化集群启停脚本
7.安装Mysql
8.安装Hive-1
9.安装Hive-2
10.基本命令行操作
11.HiveQL数据定义1
12.HiveQL数据定义2-数据库与hdfs文件对应关系
13..HiveQL数据定义3-外部表与内部表操作例子及表与hdfs文件管控关系
14.HiveQL查询-HiveQL查询及Tez与MR引擎性能对比
15.Hive锁
16.Hive执行计划与表分区
第6章:Spark快速大数据处理
1.Spark是类似如MR-Tez-Flink的计算框架
2.Spark是大一统的数据处理引擎1-综述
3.Spark是大一统的数据处理引擎2-为什么不选择RDD-数据分析的思想
4.Spark是大一统的数据处理引擎3-Hive On Spark VS Spark On Hive与框
5.我们选择Python-Scala-Java为编程语言
6.编译1
7.编译2
8.安装Spark-上
9.安装Spark-下
10.Spark集群模式
11.SparkSQL例子-pyspark版本
12.SparkSQL例子-python脚本通过spark-submit提交yarn集群
13.SparkSQL例子-scala版本
14.SparkSQL例子-spark-sql版本
15.Hive锁表处理
16.Spark编程模型与Spark基本架构
17.SparkContext与任务调度
18.Spark部署模式与计算引擎
19.安装Anaconda
20.安装Jupyter-1
21.安装Jupyter-2
22.安装Toree-1
23.安装Toree-2-执行python和scala例子
24.修改集群启动脚本
第7章:Spark快速大数据处理淘宝数据实战
1.SparkSQL-DataFrame API概述
2.淘宝用户行为分析任务介绍
3.淘宝用户行为数据属性
4.数据加载
5.数据加载后的基本特征分析
6.任务1-用户访问流量分布分析-1-任务介绍
7.任务1-用户访问流量分布分析-2
8.任务1-用户访问流量分布分析-3
9.任务1-用户访问流量分布分析-4-pandas和Apache Arrow
10.任务1-用户访问流量分布分析-5
11.任务1-用户访问流量分布分析-6
12.任务1-用户访问流量分布分析-7
13.任务1-用户访问流量分布分析-8-编程过程总结
14.任务1-用户访问流量分布分析-9-资源不释放故障处理
15.任务1-用户访问流量分布分析-10-按照小时统计
16.任务2-用户活跃度分析-DAU
17.任务3-客单量分析
18.任务4-商品PV各环节转化率-1
19.任务4-商品PV各环节转化率-2
20.任务4-商品PV各环节转化率-3
21.任务4-商品PV各环节转化率-4
22.任务4-商品PV各环节转化率-5
第8章:Spark Structured Streaming简介
1.什么是流、动态表
2.Streaming WordCount原理
3.时间与窗口-1-基本概念
4.时间与窗口-2-例子
5.事件迟到
6.水印
7.进一步学习材料
第9章:集群环境对称处理
1.Spark案例后的集群环境对称处理
第10章:Oozie-大数据流程引擎
1.大数据工作流的必要性
2.Oozie工作流总体架构
3.Oozie工作流编程概念
4.编译
5.制作sharelib-上
6.制作sharelib-下
7.安装client和server-1-oozie-server的解压与配置
8.安装client和server-2-配置mysql
9.安装client和server-3-sharelib的创建与oozie的启动
10.设置自动化启停脚本
11.编程实战概要
12.oozie基本编程技巧及cron action例子-上
13.oozie基本编程技巧及cron action例子-中
14.oozie基本编程技巧及cron action例子-下
15.Shell Action-上
16.Shell Action-下
17.MR Action-上
18.MR Action-中
19.MR Action-下
20.Spark Action-上
21.Spark Action-下
22.PySpark Action-上
23.PySpark Action-下
24.Hive2 Action-上
25.Hive2 Action-下
26.总结

 

7项超值权益,保障学习质量」

  • 大咖讲解

技术专家系统讲解传授思路与实战。

  • 答疑服务

专属社群随时沟通与讲师答疑,扫清学习障碍。

  • 课程资料+课件

超实用资料,覆盖核心知识,关键技能,方便练习巩固。

  • 常用实战

企业常见实战案例,带你掌握Python在工作中的不同运用场景。

  • 大牛技术大会视频

2019Python开发者大会视频免费观看,送你一个近距离感受互联网大佬的机会。

  • APP+PC随时随地学习

满足不同场景学习需求,不受空间、地域限制。

  • 内推机会

****联合大厂博客专家,为优秀学员推荐具有竞争力的工作机会 。

☛点击立即跟老师学习☚

 

「什么样的技术人适合学习?」

  • 想进入技术行业,但是面对多门编程语言不知如何选择,0基础的你
  • 掌握技术单一、冷门,迫切希望能够转型的你
  • 想进入大厂,但是技术不够丰富,没有竞争力的你

 

「悉心打造精品好课,13天学到大牛3年项目经验」

【完善的技术体系】

技术成长循序渐进,帮助用户轻松掌握

掌握Spark知识,扎实编码能力

【清晰的课程脉络】

浓缩大牛多年经验,全方位构建出系统化的技术知识脉络,同时注重实战操作。

【仿佛在大厂实习般的课程设计】

课程内容全面提升技术能力,系统学习大厂技术方法论,可复用在日后工作中。

☛点击立即跟老师学习☚

 

「你可以收获什么?」

掌握Hadoop3/Tez/Spark2/Hive3/Oozie5实战方法

收获大数据处理的方法论

数据分析实战过程(以天池大赛为例子)