Spark+Hadoop集群搭建:(三)在Hadoop集群上安装Spark


本文将介绍如何在Hadoop集群上安装Spark。如果不知道如何搭建Hadoop集群,请先阅读本系列文章的(一)(二)两部分

1 Scala安装

Spark本身是用Scala语言开发的,所以首先需要安装Scala。首先在master中安装。我们用的spark版本为2.4,需要配套使用的scala版本为2.11

1.1 下载安装包

进入Scala下载页面,下拉,找到tgz包
Spark+Hadoop集群搭建:(三)在Hadoop集群上安装Spark
右击,复制链接如下
https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.tgz
在master的命令行中输入:
wget https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.tgz

1.2 解压

输入命令:tar xvf scala-2.11.12.tgz
Spark+Hadoop集群搭建:(三)在Hadoop集群上安装Spark

1.3 迁移目录

将scala迁移到/usr/local目录下
输入命令:sudo mv scala-2.11.12 /usr/local/scala

1.4 配置环境变量

输入命令:sudo gedit ~/.bashrc
加入如下的配置
Spark+Hadoop集群搭建:(三)在Hadoop集群上安装Spark
使设置生效,输入命令:source ~/.bashrc

1.5 启动scala

可以启动scala确认安装成功。
输入命令:scala
Spark+Hadoop集群搭建:(三)在Hadoop集群上安装Spark
输入命令: :q 退出

2 安装Spark

2.1 下载安装包

进入下载页面,选择spark2.4,hadoop2.7,如下图所示。
Spark+Hadoop集群搭建:(三)在Hadoop集群上安装Spark
点击上图中的链接,进入如下页面。右击,复制下图红框内链接。
Spark+Hadoop集群搭建:(三)在Hadoop集群上安装Spark
复制结果如下:http://mirrors.shu.edu.cn/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
输入命令:wget http://mirrors.shu.edu.cn/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
Spark+Hadoop集群搭建:(三)在Hadoop集群上安装Spark

2.2 解压

输入命令:tar zxf spark-2.4.0-bin-hadoop2.7.tgz

2.3 迁移目录

输入命令:sudo mv spark-2.4.0-bin-hadoop2.7 /usr/local/spark/

2.4 配置环境变量

输入命令:sudo gedit ~/.bashrc
添加如下配置
使配置生效,输入命令:source ~/.bashrc
Spark+Hadoop集群搭建:(三)在Hadoop集群上安装Spark

3 PySpark

3.1 安装Python

使用PySpark需要使用python
输入命令:sudo apt-get install python 安装python2

3.2 启动PySpark

输入命令:pyspark

Spark+Hadoop集群搭建:(三)在Hadoop集群上安装Spark

4 构建Spark Standalone Cluster运行环境

4.1 创建 spark-env.sh

复制模板文件,输入命令:cp /usr/local/spark/conf/spark-env.sh.template /usr/local/spark/conf/spark-env.sh
编辑 spark-env.sh,输入命令:sudo gedit /usr/local/spark/conf/spark-env.sh
添加如下信息
Spark+Hadoop集群搭建:(三)在Hadoop集群上安装Spark

4.2 data1

连接data1,命令:ssh data1
创建spark目录,命令:sudo mkdir /usr/local/spark
更改所有者,命令:sudo chown hduser:hduser /usr/local/spark
为data1安装python
注销:exit
将master的spark复制到data1:sudo scp -r /usr/local/spark [email protected]:/usr/local

4.3 data2、data3

用相同的方法处理data2、data3

4.4 配置slaves文件

命令:sudo gedit /usr/local/spark/conf/slaves

5 在Spark Standalone上运行pyspark

5.1 启动Spark Standalone Cluster

命令:/usr/local/spark/sbin/start-all.sh

5.2 运行pyspark

命令:pyspark --master spark://master:7077 --numexecutors 1 --total-executor-cores 3 --executor-memory 512m
后边3个参数分别定义了:每个节点上的执行器个数、执行器使用的内核数、每个执行器使用的内存数量

5.3 测试代码

Spark+Hadoop集群搭建:(三)在Hadoop集群上安装Spark

5.4 Spark Web UI界面

进入网址:http://master:8080/

5.5 关闭Spark Standalone Cluster

命令:/usr/local/spark/sbin/stop-all.sh