spark配置安装,和jupyter的安装
在配置之前,先准备好:
spark-2.2.0-bin-hadoop2.7.tgz
Anaconda3-5.1.0-Linux-x86_64.sh
解压spark:
tar -zxvf spark-2.2.0-bin-hadoop2.7
配置spark环境:
echo export SPARK_HOME=$spark >> ~/.bashrc
echo export PATH=$PATH:$spark/etc/bin:$spark/etc/sbin >> ~/.bashrc
source ~/.bashrc
配置好后刷新环境变量,可以通过spark-shell来查看是否配置好环境变量
如果进入scala界面就证明配置好了。
配置jupyter:
这里我先尝试着解压Anaconda3-5.1.0-Linux-x86_64.sh 我发现还需要下载一样东西,并且是在root权限下。
su 切换用过户
yum -y install bzip2
下载好后,退出用户,在hadoop用户下运行 Anaconda3-5.1.0-Linux-x86_64.sh
一直回车,直到如下图。
这里一定要yes。
这里需要解压的东西比较多,西药等上一段时间。
yes,配置默认位置。
刷新一下环境变量
通过命令 python查看版本,如果是3.6版本就证明成功了
启动jupyter:
先启动hadoop集群 : start-dfs.sh
接着启动jupyter,命令: jupyter-notebook --ip python(主机名)
这个jupyter的地址,复制在浏览器上就OK了。
这样就登陆成功了。
有一点必须注意,如果是临时关闭防火墙的话,需要切换到root用户关闭防火墙。
命令:systemctl stop firewalld 详细关闭防火墙,请看上一篇。
spark与jupyter的连接:
新建ipynb文件:
接着我们在里面编写环境准备代码:
代码如下:
import os
import sys
spark_home = os.environ.get('SPARK_HOME',None)
if not spark_home:
raise ValueError('SPARK_HOME enviroment variable is not set')
sys.path.insert(0,os.path.join(spark_home,'python'))
sys.path.insert(0,os.path.join(spark_home,'python/lib/py4j-0.10.4-src.zip'))
exec(open(os.path.join(spark_home,'python/pyspark/shell.py')).read())
运行代码,需要等一会才会出现如图上的界面。