Spark(1)spark环境版本、思维导图、架构中的角色、standalone模式搭建

spark学习环境版本说明

spark版本:spark-3.0.0
hadoop版本:hadoop-3.2.1
hbase版本:hbase-2.2.5
kafka版本:kafka_2.12-2.4.1
java版本:1.8
scala版本:2.12

分布式计算:

Spark(1)spark环境版本、思维导图、架构中的角色、standalone模式搭建

spark系列思维导图:

建议保存本地查看
Spark(1)spark环境版本、思维导图、架构中的角色、standalone模式搭建

spark架构体系:

Spark(1)spark环境版本、思维导图、架构中的角色、standalone模式搭建

Spark中重要角色

Master :是一个Java进程,接收Worker的注册信息和心跳、移除异常超时的Worker、接收客户端提交的任务、负责资源调度、命令Worker启动Executor。

Worker :是一个Java进程,负责管理当前节点的资源关联,向Master注册并定期发送心跳,负责启动Executor、并监控Executor的状态。

SparkSubmit :是一个Java进程,负责向Master提交任务。

Driver :是很多类的统称,可以认为SparkContext就是Driver,client模式Driver运行在SparkSubmit进程中,cluster模式单独运行在一个进程中,负责将用户编写的代码转成Tasks,然后调度到Executor中执行,并监控Task的状态和执行进度。

Executor :是一个Java进程,负责执行Driver端生成的Task,将Task放入线程中运行。

Spark环境搭建(standalone模式)

standalone模式是Spark自带的分布式集群模式,不依赖其他的资源调度框架