Spark天堂之门笔记

一、Spark天堂之门：SparkContext
1. Spark程序在运行时分为Driver和Executors两部分；
2. Spark程序编写基于SparkContext，具体包含两个方面：
Spark编程的核心基础是RDD，第一个RDD一定是由SparkContext创建的；
Spark程序的调度优化也是基于SparkContext实现。
3. Spark程序注册时通过SparkContext实例化时产生的对象完成（实际上通过SchedulerBackend来注册程序）；
4. Spark程序运行时通过Cluster Manager获得具体的计算资源，计算资源的获取也是通过SparkContext产生的对象来申请的（实际上通过SchedulerBackend来获取计算资源)；
5. SparkContext崩溃或者结束时整个Spark程序就结束了。
SparkContext开启天堂之门：Spark程序通过SparkContext发布到Spark集群；
SparkContext导演天堂世界：Spark程序的运行都是在SparkContext为核心的调度器指挥下进行的；
SparkContext关闭天堂之门：SparkContext崩溃或者结束时整个Spark程序就结束。
二、SparkContext天堂内幕
1.SparkContext构建的顶级三大核心对象：DAGScheduler、TaskScheduler、SchedulerBackend，其中：
DAGScheduler是面向Job的Stage的高层调度器；
TaskSchedule是接口，根据具体的Cluster Manager的不同会有不同的实现，Standalone模式下具体的实现是TaskSchedulerlmpl；
SchedulerBackend也是接口，根据具体的Cluster Manager的不同会有不同的实现，Standalone模式下具体的实现是SparkDeploySchedulerBackend；
2. 从整个程序运行的角度来讲，SparkContext包含四大核心对象：DAGScheduler、TaskScheduler、SchedulerBackend、MapOutputTrackerMaster。
Spark天堂之门笔记

SparkContext内幕
Spark天堂之门笔记
SparkDeploySchedulerBackend的三种核心功能：
负责与Master链接注册当前程序；
接收集群中为当前应用程序而分配的计算资源Executor的注册及管理；
负责发送Task到具体的Executor执行；
SparkDeploySchedulerBackend被TaskSchedulerlmpl管理。
Spark天堂之门笔记
当通过SparkDeploySchedulerBackend注册程序给Master时把上述command提交给Master，Master发指令给Worker去启动Executor所在的进程的时候加载的main方法所在的入口类就是command中的CoarseGrainedExecutorBackend，也可以实现自己的ExecutorBackend。在CoarseGrainedExecutorBackend中启动Executor（Executor是先注册再实例化)，Executor通过线程池并发执行Task
Spark天堂之门笔记

Spark天堂之门笔记

相关推荐