Spark分布式环境搭建

 

 

1.安装Spark

参考网址http://dblab.xmu.edu.cn/blog/1187-2/

Spark分布式环境搭建 

下载第一个

2.环境变量配置

命令:gedit /etc/profile (或者用vim)

 

export JAVA_HOME=/home/roger/jdk1.8.0_221

export JRE_HOME=${JAVA_HOME}/jre

export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib

export PATH=${JAVA_HOME}/bin:$PATH

 

export HADOOP_HOME=/home/roger/hadoop-2.7.7

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

 

export HIVE_HOME=/home/roger/apache-hive-2.3.6-bin

export PATH=$PATH:$HIVE_HOME/bin

 

export ZOOKEEPER_HOME=/home/roger/zookeeper-3.4.9

export PATH=$ZOOKEEPER_HOME/bin:$PATH

 

export HBASE_HOME=/home/roger/hbase-1.2.4

export PATH=$HBASE_HOME/bin:$PATH

 

export SPARK_HOME=/home/roger/spark/spark-2.4.5-bin-hadoop2.7

export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

 

export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native/:$LD_LIBRARY_PATH

Spark分布式环境搭建

3.环境变量生效

命令:source /etc/profile

4.spark 配置

4.1

Spark分布式环境搭建

 

4.2在spark-config.sh中添加Jdk安装目录

export JAVA_HOME=/home/roger/jdk1.8.0_221

Spark分布式环境搭建

 

4.3

1.把$SPARK_HOME/jars上传到HDFS上,如放到hdfs://master:9000/spark_jars/目录下

Spark分布式环境搭建

 

2.同时将$SPARK_HOME/conf下spark-defaults.conf.template重命名为spark-defaults.conf文件,并在文件末尾加上一行:spark.yarn.jars=hdfs://master:9000/spark_jars/*  (注意将master改为自己的主机名称)

Spark分布式环境搭建

 

5.将spark和环境变量发送到各个节点

 

1. scp -r /home/roger/spark/spark-2.4.5-bin-hadoop2.7 node1:/home/roger/spark

 

2.scp /etc/profile node1:/etc/profile

 

6.启动spark集群

注意:要先启动Hadoop

1.启动Master节点 start-master.sh

在Master节点上运行jps命令,可以看到多了个Master进程。

 

2. 启动所有Slave节点 start-slaves.sh

分别在slave01、slave02节点上运行jps命令,可以看到多了个Worker进程

 

3. 在master主机上打开浏览器,访问http://master:8080,如下图:

Spark分布式环境搭建

 

7.关闭spark集群

1. 关闭Master节点 stop-master.sh

 

2. 关闭Worker节点 stop-slaves.sh

 

3. 关闭yarn  stop-yarn.sh 要从第三机子关闭和开启(我的yarn配置在第三台机子)

yarn       网页访问:node2:8088

 

4.关闭 hdfs stop-dfs.sh

hdfs       网页访问:master:50070