从任何目录下引入Jupyter笔记本导入pyspark
问题描述:
我的操作系统是Ubuntu 16,我的目标是在Jupyter笔记本中为,而无需从安装Spark的目录内启动Jupyter Notebook(通过控制台)。我findspark
试了一下,像这样从任何目录下引入Jupyter笔记本导入pyspark
import findspark
findspark.init("directory_where_I_installed_spark_to")
import pyspark
这适用于一个会话,但是当我关闭会话并再次打开笔记本,让我ImportError: No module 'pyspark'
。我错过了什么?
答
我通过编辑.bashrc文件达到了我的目标,如此处所述https://medium.com/@GalarnykMichael/install-spark-on-ubuntu-pyspark-231c45677de0(步骤7)。
答
如果您在代码的第二行之后添加findspark.find()以上的代码 两次输出的结果是什么?
+0
在这两种情况下(从推出笔记本Jupyter我的主目录并从Spark目录启动它)我得到相同的输出,即我安装Spark的目录。 – Joe
你必须定义环境变量,看一看这一https://stackoverflow.com/questions/35576621/setting-environment-variables-from-python-code-for-spark –