1.安装Spark

参考网址：http://dblab.xmu.edu.cn/blog/1187-2/

Spark分布式环境搭建

下载第一个

2.环境变量配置

命令：gedit /etc/profile (或者用vim)

export JAVA_HOME=/home/roger/jdk1.8.0_221

export JRE_HOME=${JAVA_HOME}/jre

export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib

export PATH=${JAVA_HOME}/bin:$PATH

export HADOOP_HOME=/home/roger/hadoop-2.7.7

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

export HIVE_HOME=/home/roger/apache-hive-2.3.6-bin

export PATH=$PATH:$HIVE_HOME/bin

export ZOOKEEPER_HOME=/home/roger/zookeeper-3.4.9

export PATH=$ZOOKEEPER_HOME/bin:$PATH

export HBASE_HOME=/home/roger/hbase-1.2.4

export PATH=$HBASE_HOME/bin:$PATH

export SPARK_HOME=/home/roger/spark/spark-2.4.5-bin-hadoop2.7

export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native/:$LD_LIBRARY_PATH

Spark分布式环境搭建

3.环境变量生效

命令：source /etc/profile

4.spark 配置

4.1

Spark分布式环境搭建

4.2在spark-config.sh中添加Jdk安装目录

export JAVA_HOME=/home/roger/jdk1.8.0_221

Spark分布式环境搭建

4.3

1.把$SPARK_HOME/jars上传到HDFS上，如放到hdfs://master:9000/spark_jars/目录下

Spark分布式环境搭建

2.同时将$SPARK_HOME/conf下spark-defaults.conf.template重命名为spark-defaults.conf文件，并在文件末尾加上一行：spark.yarn.jars=hdfs://master:9000/spark_jars/* （注意将master改为自己的主机名称）

Spark分布式环境搭建

5.将spark和环境变量发送到各个节点

1. scp -r /home/roger/spark/spark-2.4.5-bin-hadoop2.7 node1:/home/roger/spark

2.scp /etc/profile node1:/etc/profile

6.启动spark集群

注意：要先启动Hadoop

1.启动Master节点 start-master.sh

在Master节点上运行jps命令，可以看到多了个Master进程。

2. 启动所有Slave节点 start-slaves.sh

分别在slave01、slave02节点上运行jps命令，可以看到多了个Worker进程

3. 在master主机上打开浏览器，访问http://master:8080,如下图：

Spark分布式环境搭建

7.关闭spark集群

1. 关闭Master节点 stop-master.sh

2. 关闭Worker节点 stop-slaves.sh

3. 关闭yarn stop-yarn.sh 要从第三机子关闭和开启（我的yarn配置在第三台机子）

yarn 网页访问：node2:8088

4.关闭 hdfs stop-dfs.sh

hdfs 网页访问：master:50070

Spark分布式环境搭建

1.安装Spark

2.环境变量配置

3.环境变量生效

4.spark 配置

4.1

4.2在spark-config.sh中添加Jdk安装目录

4.3

5.将spark和环境变量发送到各个节点

6.启动spark集群

7.关闭spark集群

相关推荐