Spark高可用架构的搭建方法

大家好，我是小木，这次我主讲的内容是Spark的HA搭建方法，Spark作为大数据里面最有用的软件，我们是必定会用到的。

首先，我们要在官方网站上面下载Spark的安装包，官方网址是：

http://spark.apache.org/

进入官网之后，我们发现好高大上！

小木讲大数据-Spark高可用架构的搭建方法

我曾经说过，装逼的人说装逼的话，牛逼的人做牛逼的事儿。但是Spark他装B的话也说，牛批的事儿也做。你看网站上面写的，速度比yarn快100倍，多牛批啊。

我们不吐槽了，我们看到右边有一个绿色的图片，叫做Download Spark，我们点击它就可以进入下载页面了。

进入之后，我们选择要下载的版本：

小木讲大数据-Spark高可用架构的搭建方法

小木我在这里，第一个选项选择的是2.20的版本，第二个选项包的种类选择的是hadoop2.7之后的版本，因为本人用的hadoop是2.8.2。

单击第三个选项后面的按钮就可以下载安装包了。

下载好了，之后，我们打开我们要安装的机器，在这里面，我们一共需要7台机器，其中包括2台Master，3台Worker，3台Zookeeper，为了减少机器数量，我们把一台Zookeeper和一个Worker合并。结构如图所示：

小木讲大数据-Spark高可用架构的搭建方法

Zookeeper的安装在这节课中我们不会讲解，我们假设它们都安装完毕了。

我们把下载好的文件：spark-2.2.0-bin-hadoop2.7.tgz，先导入到Master中去：

我应用Sftp协议：

put G:/spark-2.2.0-bin-hadoop2.7.tgz ~

接下来解压tgz安装包，到目录，如~/bigdata下：

mkdir ~/bigdata

tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz -C ~/bigdata

之后，我们进入到我们解压后目录中：

cd ~/bigdata/spark-2.2.0-bin-hadoop2.7

我们查看这个目录会发现，里面有一个叫做conf的文件夹，我们进入

cd conf

在这里面，我们看到有一个叫做spark-env.sh.template的文件，我们要把这个文件重命名为spark-env.sh。

cp spark-env.sh.template spark-env.sh

之后，我们打开这个文件：

vi spark-env.sh

打开文件后，我们敲击a选择插入模式，并向文件的末尾添加：

export JAVA_HOME=/usr/jdk1.8.0_141/

export SPARK_MASTER_HOST=master

export SPARK_MASTER_HOST=slave1

export SPARK_MASTER_PORT=7077

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=slave2:2181,slave5:2181,slave6:2181 -Dspark.deploy.zookeeper.dir=/spark2"

export SPARK_WORKER_CORES=8

export SPARK_WORKER_MEMORY=2g

第一行是我们的JDK安装的目录，我安装的位置是/usr/jdk1.8.0_141/

第二、三行是我们的Master主机名称，我们两个Master主机，分别是192.168.2.11和192.168.2.12，他们的名字分别叫做master，slave1（为了区别主机名字和Spark的类别Master ，我们表示主机名字首字母全用小写，类别首字母用大写）

第四行是我们的端口号，默认值是7077，照写就行。

第五~七行配置zookeeper，我们有3个，机器分别是192.168.2.13、192.168.2.16、192.168.2.17，其名字分别为slave2,slave5,slave6。后面跟着的2181是端口号，我们照着写即可。

第八行指的是我们的Worker机器中，每个机器的CPU线程数目是多少。

第九行是我们的Worker机器中，每个机器的内存是多少。

配置好了之后，我们敲击:qw进行保存，退出。

之后，我们看到在同conf文件夹下有一个叫做slaves.template的文件，我们要把这个文件重命名为slaves，然后我们进入文件当中。

cp slaves.template slaves

vi slaves

我们在slaves的最后面添加上我们的Worker主机的名称，比如我们是：

slave2

slave3

slave4

也就是192.168.2.13~15这三台机器。

接下来我们保存，退出。

之后我们把整个解压后的安装包，传给192.168.2.12~15：

scp -r ~/bigdata/spark-2.2.0-bin-hadoop2.7 192.168.2.12:$PWD

scp -r ~/bigdata/spark-2.2.0-bin-hadoop2.7 192.168.2.13:$PWD

scp -r ~/bigdata/spark-2.2.0-bin-hadoop2.7 192.168.2.14:$PWD

scp -r ~/bigdata/spark-2.2.0-bin-hadoop2.7 192.168.2.15:$PWD

传完之后，我们的高可用架构就完成了，很简单吧，当然这是因为Spark比起Hadoop来说，太傻瓜式了。

———————————————

如果对我的课程感兴趣的话，欢迎关注小木希望学园-微信公众号：

mutianwei521

也可以扫描二维码哦！

小木讲大数据-Spark高可用架构的搭建方法

小木讲大数据-Spark高可用架构的搭建方法

Spark高可用架构的搭建方法

相关推荐