走向大数据大神之路
文末加V领取资料 下面是正文
带你探索大数据世界的秘密
- 海量数据处理
- 前后端分离
- 即席查询
- 数据处理优化
- 项目实战
- 源码分析
学习本课程您能掌握
-
掌握数据从终端(APP)的产生到数据中台处理再到大数据后台处理的整个链路技术
-
掌握大数据量计算与存储分离解决方案,海量级数据秒查询优化方案
-
掌握真实企业大数据平台(CDH)调优
-
大数据主流技术hadoop二次开发修改NameNode的bug,hbase,kafka源码,spark自定义数据源实现列剪枝灵活查询海量数据
-
重构SparkSql构建多数据源(hbase,redis,jdbc,kafka,elasticsearch)的数据查询平台
课程特色
- 高级架构师授课
10年互联网从业经验,一线实战派架 构师亲授 - 前端中台后端 全链路数据处理
实现自定义地图和数据炫酷展示,中台springBoot实现restFull接口,大数据后端进行实时流和离线数据处理 - 海量数据处理方案
呈现海量数据处理平台架构 - 大数据流行技术 底层源码剖析
Hadoop二次开发修复NameNode的bug,hBase,kafka,spark自定义数据源和sql语法重构
课程大纲
后厂理工学院严格遵守滴滴出行的数据安全标准,本培养计划中:订单、车辆分布和收入总数等数据均采用模拟数据集实现,此类功能点在大纲中用标注。
海量数据实时可视化项目
第一周:智慧出行底层数据架构剖析纵览全局
项目架构及解决方案论述
通过binlog方式实时梳理业务库高QPS压力
内置源码模块,细粒度监控Spark作业,失败及时邮件报警
覆盖Spark源码自定义数据源加载,从源头进行列剪枝
自定义维护Kafka的偏移量管理,实现exactlyonce
使用SpringBoot实现Java项目前后端rest接口的开发规范
业务库高并发解决方案介绍和架构实现
业务库MysqlBinlog的落地
使用Maxwell实时抓取binlog并解析到分布式消息队列
从零开始搭建前后端分离的智慧出行项目框架
使用mave项目聚合模块构建
第二周:智慧出行网约车服务体系建设的开发
订单实时流数据分析处理
使用Flume集成Kafka进行订单数据的实时回放
Flume订单数据回放断点续传场景分析及解决实战
SparkStreaming订单数据流实时统计分析实战
出行订单轨迹监控
Redis实时缓存订单轨迹,实现订单实时轨迹监控
使用高德地图实现出行订单历史轨迹回放控制
第三周:智慧出行之虚拟车站、出行迁途
墨卡托投影实现轨迹栅格化计算虚拟车站
墨卡托投影对轨迹数据进行栅格化设计和存储
使用phoenix秒查虚拟车站级可视化展示
智慧出行-出行迁途
离线统计海量订单数据中的出行地和目的地
H5Canvas出行迁途可视化展示
第四周:智慧出行之项目数据的接收和落地
基于binlog进行数据实时同步
Maxwell的语法讲解
Maxwell解析binlog到Kafka
代码实现HBase的负载均衡处理
HBase的痛点之热点问题
HBase的热点会造成什么问题
出现热点的原因剖析
解决热点问题
Kafka的offset自主管理实现Exactly-once语义实现
为什么自主维护offset
自主维护offset的实现
Kafka数据生命周期到期后找不到数据偏移量的解决方案
生产中Kafka会遇到的数据fetch不到的异常解决方案
解决生产中的Kafka生命周期问题
通过反射实体数据落地到HBase
解析Kafka中的json数据集
实例与数据集映射成集合
实时同步事务操作结果到HBase
第五周:基于源码进行任务的监控和调优
内置Spark离线与实时任务监控,实现细粒度任务的监控和异常报警
基于Metrics进行Spark应用程序的性能监控
SparkStreaming的限流、压背、冷启动
开启动态资源分配(从平台到代码)
SparkStreaming任务异常重试机制处理
第六周:智慧交通数据大屏之订单数据监控
数据大屏之订单数据统计
SparkSQL源码二次开发自定义数据源实现HBase表数据列剪枝分析计算
SparkSQL自定义数据源持久化城市车辆分布和各城市订单数据到HBase
SpringBoot+mybatis+jdbc+phoenix实现海量数据秒查询实战
Spark离线分析计算订单汇总表(总、月、周、日)、订单累计里程总数的数据计算和数据落地
第七周:智慧交通数据大屏之用户统计分析
数据大屏之用户总数和注册数
订单总数、注册总数、收入总数的计算和结果数据落地
订单总数、注册总数、收入总数Java中台与大数据后台统计实战
数据大屏之活跃用户留存分析
各城市当日新增用户数、当日活跃用户中台代码实现
平台注册用户总数、当日新增注册用户、本周内新增注册用户、当月新增注册用户代码实战
活跃用户和留存率的实现
第八周:智慧交通数据大屏之订单热力图
数据大屏之订单热力图
空间索引算法Uberh3分析与蜂窝六边形区域订单分析实
当日热区订单、当日新增热区订单的计算和落地
基于SparkSQL处理企业级报表
区域订单热力图可视化实战
hadoop nameNode秒级千次高并发源码改造项目
第一周:智慧出行之Hadoop性能提升的原理
RPC(远程调用)案例实战
NameNode和DataNode启动流程
DataNode与NameNode心跳流程
元数据管理内核分析
元数据管理的双缓冲机制
元数据管理流程
第二周:智慧出行之NameNode的Bug修复
HDFS写数据流程
对超高并发导致NameNode短暂不工作Bug修复
双缓冲机制回顾
NameNode不工作的Bug分析
对NameNode Full GC导致异常退出Bug修复
元数据同步流程回顾
NameNode的full GC的bug分析
第三周:智慧出行之源码级NameNode优化
对DataNode进行锁优化
优化NameNode元数据写流程
总结HDFS源码中用到的设计模式
Kafka核心源码剖析与每秒GB级数据场景实例分析
一周:智慧出行之分布式消息系统深度原理深度剖析
分布式消息系统之Kafka原理深度剖析
Kafka架构原理
ISR机制原理
零拷贝技术原理
Zookeeper选举原理
副本同步机制原理深度剖析
第二周:智慧出行之分布式消息系统源码深度剖析
分布式消息系统之Kafka原理深入剖析
Kafka的LEO和HW的更新机制
offset更新原理
Kafka集群运维管理
分布式消息系统KafkaProducer源码剖析
Kafka源码深度剖析-KafkaProducer初始化
KafkaProducer元数据管理
Producer核心流程初探
KafkaProducer加载元数据
第三周:智慧出行之分布式消息系统源码深度剖析
分布式消息系统KafkaServer端的网络
Acceptor线程是如何启动的
用于处理请求连接的Processor是如何启动的
Processor线程是如何处理completedReceives里的请求的
requestQueue队列里的请求是如何被处理的
Request是如何被处理的
服务端发送响应的准备工作
响应消息是如何发送给客户端的
Kafka的网络设计总结
Kafka日志管理
ReplicaManager写数据入口初探
LogManager是什么
LogManager启动后干什么
Log对象的append总流程窥探
如何用内存映射写稀松索引
Kafka总结
第四周:智慧出行之SparkStreaming性能调优
SparkStreaming运行原理
实时任务语义介绍
SparkStreaming重要算子详解
提升SparkStreaming任务性能
提升SparkStreaming任务稳定性
SparkStreaming企业使用方案
SparkSQl重构自定义多数据源处理平台项目
第一周:智慧出行数据查询平台之核心架构
SparkSQL执行流程分析
SparkSQL逻辑执行计划剖析
SparkSQL物理计划(PhysicalPlan)
即席查询平台整体架构设计分析
封装查询平台引擎数据模型设计
构建平台日志统一管理工具
第二周:智慧出行数据查询平台之SQL重构及服务发现
什么是antlr,antlr能为我们做什么
为什么要使用antlr
sparksql中是怎样使用antlr的
如何基于antlr重构sparksql的语法
如何利用zookeeper在spark中实现多任务并行处理
第三周:智慧出行数据查询平台之多任务自适配
前后分离的前提下,如何进行高吞吐的远程消息通信
使用akka实现sparksql的高可用及提供sparksql任务的并行处理性能
揭秘spark源码如何与antlr进行无缝连接
实现在多数据源场景下如何使用sparksql进行无缝对接,实现数据中台雏形
第四周:智慧出行数据查询平台之任务组件开发
SparkCore任务自适配实现
自适配加载Hive元数据信息实现
自适配任务组和任务的结果集查询
流任务状态的管理
流任务监控,实现任务自动重启及自动报警
第五周:智慧出行数据查询平台之自定义Spark多数据源Source和Sink实战
自定义开发SparkSQL多数据源的Source和Sink-HBase
自定义开发SparkSQL多数据源的Source和Sink-JDBC
自定义开发SparkSQL多数据源的Source和Sink-Kafka
自定义开发SparkSQL多数据源的Source和Sink-ElasticSearch
第六周:智慧出行数据查询平台之数据平台前中台实现
前后端通讯akka的设计
前端菜单模块实现
项目真实生产环境部署
第七周:智慧出行之大数据平台调优
YARN的性能调优
HDFS的调优
HBase的调优
SparkSQL的调优
服务器的调优
第八周:BAT数据平台专家技术和开发经验分享
第九周:BAT数据平台专家技术和开发经验分享
加V领取资源,加V备注【 后厂大数据 】
滴滴认证资深大数据 工程师培养计划 后厂理工学院 后厂理工 大数据 后长理工学院大数据 后厂大数据 后厂理工学院与滴滴出行教育生态达成深度合作伙伴关系, 后厂理工学院工程院集结顶级师资力量,基于滴滴出行真实场景, 将滴滴出行的开放数据和部分深度大数据技术整合为了这门市场上深度极高的大数据课程。 该课程涵盖各场景数据的采集,存储,清洗与计算,大屏可视化等。 通过该课程能够将自身掌握的前端、Java中台、NoSQL数据库、 大数据相关技术进行全面的深度应用,坚固项目全栈开发能力。
资深AI算法工程师培养计划
掌握AI核心技能与应用方法,高效对接职场需求
资深AI算法工程师培养计划
掌握AI核心技能与应用方法,高效对接职场需求
滴滴认证资深大数据工程师培养计划