本文将介绍如何在Hadoop集群上安装Spark。如果不知道如何搭建Hadoop集群，请先阅读本系列文章的（一）（二）两部分

1 Scala安装

Spark本身是用Scala语言开发的，所以首先需要安装Scala。首先在master中安装。我们用的spark版本为2.4，需要配套使用的scala版本为2.11

1.1 下载安装包

进入Scala下载页面，下拉，找到tgz包
Spark+Hadoop集群搭建：（三）在Hadoop集群上安装Spark
右击，复制链接如下
https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.tgz
在master的命令行中输入：
wget https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.tgz

1.2 解压

输入命令：tar xvf scala-2.11.12.tgz
Spark+Hadoop集群搭建：（三）在Hadoop集群上安装Spark

1.3 迁移目录

将scala迁移到/usr/local目录下
输入命令：sudo mv scala-2.11.12 /usr/local/scala

1.4 配置环境变量

输入命令：sudo gedit ~/.bashrc
加入如下的配置
Spark+Hadoop集群搭建：（三）在Hadoop集群上安装Spark
使设置生效，输入命令：source ~/.bashrc

1.5 启动scala

可以启动scala确认安装成功。
输入命令：scala
Spark+Hadoop集群搭建：（三）在Hadoop集群上安装Spark
输入命令： :q 退出

2 安装Spark

2.1 下载安装包

进入下载页面，选择spark2.4，hadoop2.7，如下图所示。
Spark+Hadoop集群搭建：（三）在Hadoop集群上安装Spark
点击上图中的链接，进入如下页面。右击，复制下图红框内链接。

复制结果如下：http://mirrors.shu.edu.cn/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
输入命令：wget http://mirrors.shu.edu.cn/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
Spark+Hadoop集群搭建：（三）在Hadoop集群上安装Spark

2.2 解压

输入命令：tar zxf spark-2.4.0-bin-hadoop2.7.tgz

2.3 迁移目录

输入命令：sudo mv spark-2.4.0-bin-hadoop2.7 /usr/local/spark/

2.4 配置环境变量

输入命令：sudo gedit ~/.bashrc
添加如下配置
使配置生效，输入命令：source ~/.bashrc
Spark+Hadoop集群搭建：（三）在Hadoop集群上安装Spark

3 PySpark

3.1 安装Python

使用PySpark需要使用python
输入命令：sudo apt-get install python 安装python2

3.2 启动PySpark

输入命令：pyspark

Spark+Hadoop集群搭建：（三）在Hadoop集群上安装Spark

4 构建Spark Standalone Cluster运行环境

4.1 创建 spark-env.sh

复制模板文件，输入命令：cp /usr/local/spark/conf/spark-env.sh.template /usr/local/spark/conf/spark-env.sh
编辑 spark-env.sh，输入命令：sudo gedit /usr/local/spark/conf/spark-env.sh
添加如下信息
Spark+Hadoop集群搭建：（三）在Hadoop集群上安装Spark

4.2 data1

连接data1，命令：ssh data1
创建spark目录，命令：sudo mkdir /usr/local/spark
更改所有者，命令：sudo chown hduser:hduser /usr/local/spark
为data1安装python
注销：exit
将master的spark复制到data1：sudo scp -r /usr/local/spark [email protected]:/usr/local

4.3 data2、data3

用相同的方法处理data2、data3

4.4 配置slaves文件

命令：sudo gedit /usr/local/spark/conf/slaves

5 在Spark Standalone上运行pyspark

5.1 启动Spark Standalone Cluster

命令：/usr/local/spark/sbin/start-all.sh

5.2 运行pyspark

命令：pyspark --master spark://master:7077 --numexecutors 1 --total-executor-cores 3 --executor-memory 512m
后边3个参数分别定义了：每个节点上的执行器个数、执行器使用的内核数、每个执行器使用的内存数量

5.3 测试代码

Spark+Hadoop集群搭建：（三）在Hadoop集群上安装Spark

5.4 Spark Web UI界面

进入网址：http://master:8080/

5.5 关闭Spark Standalone Cluster

命令：/usr/local/spark/sbin/stop-all.sh

Spark+Hadoop集群搭建：（三）在Hadoop集群上安装Spark

Spark+Hadoop集群搭建：（三）在Hadoop集群上安装Spark

1 Scala安装

1.1 下载安装包

1.2 解压

1.3 迁移目录

1.4 配置环境变量

1.5 启动scala

2 安装Spark

2.1 下载安装包

2.2 解压

2.3 迁移目录

2.4 配置环境变量

3 PySpark

3.1 安装Python

3.2 启动PySpark

4 构建Spark Standalone Cluster运行环境

4.1 创建 spark-env.sh

4.2 data1

4.3 data2、data3

4.4 配置slaves文件

5 在Spark Standalone上运行pyspark

5.1 启动Spark Standalone Cluster

5.2 运行pyspark

5.3 测试代码

5.4 Spark Web UI界面

5.5 关闭Spark Standalone Cluster

相关推荐