从任何目录下引入Jupyter笔记本导入pyspark

问题描述:

我的操作系统是Ubuntu 16,我的目标是在Jupyter笔记本中为​​,而无需从安装Spark的目录内启动Jupyter Notebook(通过控制台)。我findspark试了一下,像这样从任何目录下引入Jupyter笔记本导入pyspark

import findspark 
findspark.init("directory_where_I_installed_spark_to") 
import pyspark 

这适用于一个会话,但是当我关闭会话并再次打开笔记本,​​让我ImportError: No module 'pyspark'。我错过了什么?

+0

你必须定义环境变量,看一看这一https://stackoverflow.com/questions/35576621/setting-environment-variables-from-python-code-for-spark –

我通过编辑.bashrc文件达到了我的目标,如此处所述https://medium.com/@GalarnykMichael/install-spark-on-ubuntu-pyspark-231c45677de0(步骤7)。

如果您在代码的第二行之后添加findspark.find()以上的代码 两次输出的结果是什么?

+0

在这两种情况下(从推出笔记本Jupyter我的主目录并从Spark目录启动它)我得到相同的输出,即我安装Spark的目录。 – Joe