spark配置安装,和jupyter的安装

在配置之前,先准备好:

              spark-2.2.0-bin-hadoop2.7.tgz

               Anaconda3-5.1.0-Linux-x86_64.sh

解压spark:

              tar -zxvf spark-2.2.0-bin-hadoop2.7

spark配置安装,和jupyter的安装

配置spark环境:

               spark配置安装,和jupyter的安装

            echo  export SPARK_HOME=$spark  >> ~/.bashrc

            echo export PATH=$PATH:$spark/etc/bin:$spark/etc/sbin   >> ~/.bashrc

            source ~/.bashrc

            spark配置安装,和jupyter的安装

            配置好后刷新环境变量,可以通过spark-shell来查看是否配置好环境变量

            如果进入scala界面就证明配置好了。

配置jupyter:

            这里我先尝试着解压Anaconda3-5.1.0-Linux-x86_64.sh  我发现还需要下载一样东西,并且是在root权限下。

            su 切换用过户

            yum -y  install  bzip2

spark配置安装,和jupyter的安装

下载好后,退出用户,在hadoop用户下运行 Anaconda3-5.1.0-Linux-x86_64.sh 

spark配置安装,和jupyter的安装

一直回车,直到如下图。

spark配置安装,和jupyter的安装

这里一定要yes。

spark配置安装,和jupyter的安装

这里需要解压的东西比较多,西药等上一段时间。

spark配置安装,和jupyter的安装

yes,配置默认位置。

刷新一下环境变量

spark配置安装,和jupyter的安装

通过命令  python查看版本,如果是3.6版本就证明成功了


启动jupyter:

先启动hadoop集群   : start-dfs.sh

spark配置安装,和jupyter的安装

接着启动jupyter,命令: jupyter-notebook --ip python(主机名)

spark配置安装,和jupyter的安装


spark配置安装,和jupyter的安装

这个jupyter的地址,复制在浏览器上就OK了。

spark配置安装,和jupyter的安装

这样就登陆成功了。

有一点必须注意,如果是临时关闭防火墙的话,需要切换到root用户关闭防火墙。

命令:systemctl    stop    firewalld           详细关闭防火墙,请看上一篇。


spark与jupyter的连接:

          新建ipynb文件:

spark配置安装,和jupyter的安装

接着我们在里面编写环境准备代码:

            代码如下:

import os
import sys
spark_home = os.environ.get('SPARK_HOME',None)
if not spark_home:
    raise ValueError('SPARK_HOME enviroment variable is not set')
sys.path.insert(0,os.path.join(spark_home,'python'))
sys.path.insert(0,os.path.join(spark_home,'python/lib/py4j-0.10.4-src.zip'))

exec(open(os.path.join(spark_home,'python/pyspark/shell.py')).read())


spark配置安装,和jupyter的安装

运行代码,需要等一会才会出现如图上的界面。