Spark+Hadoop集群搭建:(三)在Hadoop集群上安装Spark
Spark+Hadoop集群搭建:(三)在Hadoop集群上安装Spark
本文将介绍如何在Hadoop集群上安装Spark。如果不知道如何搭建Hadoop集群,请先阅读本系列文章的(一)(二)两部分
1 Scala安装
Spark本身是用Scala语言开发的,所以首先需要安装Scala。首先在master中安装。我们用的spark版本为2.4,需要配套使用的scala版本为2.11
1.1 下载安装包
进入Scala下载页面,下拉,找到tgz包
右击,复制链接如下
https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.tgz
在master的命令行中输入:
wget https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.tgz
1.2 解压
输入命令:tar xvf scala-2.11.12.tgz
1.3 迁移目录
将scala迁移到/usr/local目录下
输入命令:sudo mv scala-2.11.12 /usr/local/scala
1.4 配置环境变量
输入命令:sudo gedit ~/.bashrc
加入如下的配置
使设置生效,输入命令:source ~/.bashrc
1.5 启动scala
可以启动scala确认安装成功。
输入命令:scala
输入命令: :q 退出
2 安装Spark
2.1 下载安装包
进入下载页面,选择spark2.4,hadoop2.7,如下图所示。
点击上图中的链接,进入如下页面。右击,复制下图红框内链接。
复制结果如下:http://mirrors.shu.edu.cn/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
输入命令:wget http://mirrors.shu.edu.cn/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
2.2 解压
输入命令:tar zxf spark-2.4.0-bin-hadoop2.7.tgz
2.3 迁移目录
输入命令:sudo mv spark-2.4.0-bin-hadoop2.7 /usr/local/spark/
2.4 配置环境变量
输入命令:sudo gedit ~/.bashrc
添加如下配置
使配置生效,输入命令:source ~/.bashrc
3 PySpark
3.1 安装Python
使用PySpark需要使用python
输入命令:sudo apt-get install python 安装python2
3.2 启动PySpark
输入命令:pyspark
4 构建Spark Standalone Cluster运行环境
4.1 创建 spark-env.sh
复制模板文件,输入命令:cp /usr/local/spark/conf/spark-env.sh.template /usr/local/spark/conf/spark-env.sh
编辑 spark-env.sh,输入命令:sudo gedit /usr/local/spark/conf/spark-env.sh
添加如下信息
4.2 data1
连接data1,命令:ssh data1
创建spark目录,命令:sudo mkdir /usr/local/spark
更改所有者,命令:sudo chown hduser:hduser /usr/local/spark
为data1安装python
注销:exit
将master的spark复制到data1:sudo scp -r /usr/local/spark [email protected]:/usr/local
4.3 data2、data3
用相同的方法处理data2、data3
4.4 配置slaves文件
命令:sudo gedit /usr/local/spark/conf/slaves
5 在Spark Standalone上运行pyspark
5.1 启动Spark Standalone Cluster
命令:/usr/local/spark/sbin/start-all.sh
5.2 运行pyspark
命令:pyspark --master spark://master:7077 --numexecutors 1 --total-executor-cores 3 --executor-memory 512m
后边3个参数分别定义了:每个节点上的执行器个数、执行器使用的内核数、每个执行器使用的内存数量
5.3 测试代码
5.4 Spark Web UI界面
进入网址:http://master:8080/
5.5 关闭Spark Standalone Cluster
命令:/usr/local/spark/sbin/stop-all.sh