Spark分布式环境搭建
1.安装Spark
参考网址:http://dblab.xmu.edu.cn/blog/1187-2/
下载第一个
2.环境变量配置
命令:gedit /etc/profile (或者用vim)
export JAVA_HOME=/home/roger/jdk1.8.0_221
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
export HADOOP_HOME=/home/roger/hadoop-2.7.7
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HIVE_HOME=/home/roger/apache-hive-2.3.6-bin
export PATH=$PATH:$HIVE_HOME/bin
export ZOOKEEPER_HOME=/home/roger/zookeeper-3.4.9
export PATH=$ZOOKEEPER_HOME/bin:$PATH
export HBASE_HOME=/home/roger/hbase-1.2.4
export PATH=$HBASE_HOME/bin:$PATH
export SPARK_HOME=/home/roger/spark/spark-2.4.5-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native/:$LD_LIBRARY_PATH
3.环境变量生效
命令:source /etc/profile
4.spark 配置
4.1
4.2在spark-config.sh中添加Jdk安装目录
export JAVA_HOME=/home/roger/jdk1.8.0_221
4.3
1.把$SPARK_HOME/jars上传到HDFS上,如放到hdfs://master:9000/spark_jars/目录下
2.同时将$SPARK_HOME/conf下spark-defaults.conf.template重命名为spark-defaults.conf文件,并在文件末尾加上一行:spark.yarn.jars=hdfs://master:9000/spark_jars/* (注意将master改为自己的主机名称)
5.将spark和环境变量发送到各个节点
1. scp -r /home/roger/spark/spark-2.4.5-bin-hadoop2.7 node1:/home/roger/spark
2.scp /etc/profile node1:/etc/profile
6.启动spark集群
注意:要先启动Hadoop
1.启动Master节点 start-master.sh
在Master节点上运行jps命令,可以看到多了个Master进程。
2. 启动所有Slave节点 start-slaves.sh
分别在slave01、slave02节点上运行jps命令,可以看到多了个Worker进程
3. 在master主机上打开浏览器,访问http://master:8080,如下图:
7.关闭spark集群
1. 关闭Master节点 stop-master.sh
2. 关闭Worker节点 stop-slaves.sh
3. 关闭yarn stop-yarn.sh 要从第三机子关闭和开启(我的yarn配置在第三台机子)
yarn 网页访问:node2:8088
4.关闭 hdfs stop-dfs.sh
hdfs 网页访问:master:50070