spark配置安装，和jupyter的安装

在配置之前，先准备好：

spark-2.2.0-bin-hadoop2.7.tgz

Anaconda3-5.1.0-Linux-x86_64.sh

解压spark：

tar -zxvf spark-2.2.0-bin-hadoop2.7

spark配置安装，和jupyter的安装

配置spark环境：

spark配置安装，和jupyter的安装

echo export SPARK_HOME=$spark >> ~/.bashrc

echo export PATH=$PATH:$spark/etc/bin:$spark/etc/sbin >> ~/.bashrc

source ~/.bashrc

spark配置安装，和jupyter的安装

配置好后刷新环境变量，可以通过spark-shell来查看是否配置好环境变量

如果进入scala界面就证明配置好了。

配置jupyter：

这里我先尝试着解压Anaconda3-5.1.0-Linux-x86_64.sh 我发现还需要下载一样东西，并且是在root权限下。

su 切换用过户

yum -y install bzip2

spark配置安装，和jupyter的安装

下载好后，退出用户，在hadoop用户下运行 Anaconda3-5.1.0-Linux-x86_64.sh

spark配置安装，和jupyter的安装

一直回车，直到如下图。

spark配置安装，和jupyter的安装

这里一定要yes。

spark配置安装，和jupyter的安装

这里需要解压的东西比较多，西药等上一段时间。

spark配置安装，和jupyter的安装

yes，配置默认位置。

刷新一下环境变量

spark配置安装，和jupyter的安装

通过命令 python查看版本，如果是3.6版本就证明成功了

启动jupyter:

先启动hadoop集群： start-dfs.sh

spark配置安装，和jupyter的安装

接着启动jupyter,命令： jupyter-notebook --ip python（主机名）

spark配置安装，和jupyter的安装

这个jupyter的地址，复制在浏览器上就OK了。

spark配置安装，和jupyter的安装

这样就登陆成功了。

有一点必须注意，如果是临时关闭防火墙的话，需要切换到root用户关闭防火墙。

命令：systemctl stop firewalld 详细关闭防火墙，请看上一篇。

spark与jupyter的连接：

新建ipynb文件：

spark配置安装，和jupyter的安装

接着我们在里面编写环境准备代码：

代码如下：

import os
import sys
spark_home = os.environ.get('SPARK_HOME',None)
if not spark_home:
raise ValueError('SPARK_HOME enviroment variable is not set')
sys.path.insert(0,os.path.join(spark_home,'python'))
sys.path.insert(0,os.path.join(spark_home,'python/lib/py4j-0.10.4-src.zip'))

exec(open(os.path.join(spark_home,'python/pyspark/shell.py')).read())

spark配置安装，和jupyter的安装

运行代码，需要等一会才会出现如图上的界面。

spark配置安装，和jupyter的安装

相关推荐