Anaconda中配置Pyspark的Spark开发环境--详解!
这篇文章,真的经历了很长时间,本身对java和电脑的环境变量不熟悉,走了很多弯路,以此记录下安装的新路历程,分享给大家。
目录
4.3拷贝pyspark到site-packages文件夹下
1.在控制台中测试ipython是否启动正常
既然要在Anaconda中配置spark,那么,anaconda的安装就不再赘述了,默认是有的。
这里先检查ipython是否正常,cmd命令窗口,输入,ipython,如下就证明可用。
2.安装JDK
这里主要讲,JDK的环境配置。
2.1JAVA_HOME
首先,确定自己jdk的位置,然后配置系统变量,如下:蓝色部分写自己的地址
2.2CLASSPATH
增加:%JAVA_HOME%\lib\tools.jar;%JAVA_HOME%\lib\tools.jar;即可
2.3Path
增加:%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;%SPARK_HOME%\bin;即可
上面三个变量加好之后,测试一下:
2.4测试
java命令:
javac命令:
这就证明成功了!
3.安装Spark并配置环境变量
3.1下载
spark 官网地址:https://spark.apache.org/downloads.html
下载需要的版本
3.2解压到指定目录
我这里是放到了下面的目录
3.3配置环境变量
3.3.1SPARK_HOME
3.3.2Path
增加:%SPARK_HOME%\bin;
4.Pyspark配置
4.1配置如下系统变量
按照图中配置即可:
按照图中配置即可:
增加:%SPARK_HOME%\python\lib\py4j;%SPARK_HOME%\python\lib\pyspark;
4.2修改spark\conf下的spark-env文件
这里路径,写自己的anaconda路径
export PYSPARK_PYTHON=/C:/ProgramData/Anaconda3
export PYSPARK_DRIVER_PYTHON=/C:/ProgramData/Anaconda3
export PYSPARK_SUBMIT_ARGS='--master local[*]'
4.3拷贝pyspark到site-packages文件夹下
首先找到自己路径下的文件:
拷贝到自己的anaconda文件下:
5.测试Pyspark是否安装成功
我在第一次测试时,由于java_home环境变量配置不对,所以报错:
unsupported major.minor version 52.0
这是因为:项目编译得到的class文件的版本高于运行环境中jre的版本号,高版本JDK编译的class不能在低版本的jvm虚拟机下运行,否则就会报这类错,因此无法运行!49,50,51,52是Java编译器内部的版本号,版本对应信息如下:
Unsupported major.minor version 52.0 对应于 JDK1.8(JRE1.8)
Unsupported major.minor version 51.0 对应于 JDK1.7(JRE1.7)
Unsupported major.minor version 50.0 对应于 JDK1.6(JRE1.6)
Unsupported major.minor version 49.0 对应于 JDK1.5(JRE1.5)
我刚开始配置的是jre1.7因此报错,改成1.8就可以了,也是我上面java_home配置的。
配置成功后,输入pyspark会自动跳转到jupyternotebook页面上:
在jupyter里面测试:这就证明成功了!