小木讲大数据-Spark高可用架构的搭建方法
Spark高可用架构的搭建方法
大家好,我是小木,这次我主讲的内容是Spark的HA搭建方法,Spark作为大数据里面最有用的软件,我们是必定会用到的。
首先,我们要在官方网站上面下载Spark的安装包,官方网址是:
进入官网之后,我们发现好高大上!
我曾经说过,装逼的人说装逼的话,牛逼的人做牛逼的事儿。但是Spark他装B的话也说,牛批的事儿也做。你看网站上面写的,速度比yarn快100倍,多牛批啊。
我们不吐槽了,我们看到右边有一个绿色的图片,叫做Download Spark,我们点击它就可以进入下载页面了。
进入之后,我们选择要下载的版本:
小木我在这里,第一个选项选择的是2.20的版本,第二个选项包的种类选择的是hadoop2.7之后的版本,因为本人用的hadoop是2.8.2。
单击第三个选项后面的按钮就可以下载安装包了。
下载好了,之后,我们打开我们要安装的机器,在这里面,我们一共需要7台机器,其中包括2台Master,3台Worker,3台Zookeeper,为了减少机器数量,我们把一台Zookeeper和一个Worker合并。结构如图所示:
Zookeeper的安装在这节课中我们不会讲解,我们假设它们都安装完毕了。
我们把下载好的文件:spark-2.2.0-bin-hadoop2.7.tgz,先导入到Master中去:
我应用Sftp协议:
put G:/spark-2.2.0-bin-hadoop2.7.tgz ~
接下来解压tgz安装包,到目录,如~/bigdata下:
mkdir ~/bigdata
tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz -C ~/bigdata
之后,我们进入到我们解压后目录中:
cd ~/bigdata/spark-2.2.0-bin-hadoop2.7
我们查看这个目录会发现,里面有一个叫做conf的文件夹,我们进入
cd conf
在这里面,我们看到有一个叫做spark-env.sh.template的文件,我们要把这个文件重命名为spark-env.sh。
cp spark-env.sh.template spark-env.sh
之后,我们打开这个文件:
vi spark-env.sh
打开文件后,我们敲击a选择插入模式,并向文件的末尾添加:
export JAVA_HOME=/usr/jdk1.8.0_141/
export SPARK_MASTER_HOST=master
export SPARK_MASTER_HOST=slave1
export SPARK_MASTER_PORT=7077
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=slave2:2181,slave5:2181,slave6:2181 -Dspark.deploy.zookeeper.dir=/spark2"
export SPARK_WORKER_CORES=8
export SPARK_WORKER_MEMORY=2g
第一行是我们的JDK安装的目录,我安装的位置是/usr/jdk1.8.0_141/
第二、三行是我们的Master主机名称,我们两个Master主机,分别是192.168.2.11和192.168.2.12,他们的名字分别叫做master,slave1(为了区别主机名字和Spark的类别Master ,我们表示主机名字首字母全用小写,类别首字母用大写)
第四行是我们的端口号,默认值是7077,照写就行。
第五~七行配置zookeeper,我们有3个,机器分别是192.168.2.13、192.168.2.16、192.168.2.17,其名字分别为slave2,slave5,slave6。后面跟着的2181是端口号,我们照着写即可。
第八行指的是我们的Worker机器中,每个机器的CPU线程数目是多少。
第九行是我们的Worker机器中,每个机器的内存是多少。
配置好了之后,我们敲击:qw进行保存,退出。
之后,我们看到在同conf文件夹下有一个叫做slaves.template的文件,我们要把这个文件重命名为slaves,然后我们进入文件当中。
cp slaves.template slaves
vi slaves
我们在slaves的最后面添加上我们的Worker主机的名称,比如我们是:
slave2
slave3
slave4
也就是192.168.2.13~15这三台机器。
接下来我们保存,退出。
之后我们把整个解压后的安装包,传给192.168.2.12~15:
scp -r ~/bigdata/spark-2.2.0-bin-hadoop2.7 192.168.2.12:$PWD
scp -r ~/bigdata/spark-2.2.0-bin-hadoop2.7 192.168.2.13:$PWD
scp -r ~/bigdata/spark-2.2.0-bin-hadoop2.7 192.168.2.14:$PWD
scp -r ~/bigdata/spark-2.2.0-bin-hadoop2.7 192.168.2.15:$PWD
传完之后,我们的高可用架构就完成了,很简单吧,当然这是因为Spark比起Hadoop来说,太傻瓜式了。
———————————————
如果对我的课程感兴趣的话,欢迎关注小木希望学园-微信公众号:
mutianwei521
也可以扫描二维码哦!