Anaconda中配置Pyspark的Spark开发环境--详解!

        这篇文章,真的经历了很长时间,本身对java和电脑的环境变量不熟悉,走了很多弯路,以此记录下安装的新路历程,分享给大家。

目录

1.在控制台中测试ipython是否启动正常

2.安装JDK

2.1JAVA_HOME

2.2CLASSPATH

2.3Path

2.4测试

3.安装Spark并配置环境变量

3.1下载

3.2解压到指定目录

3.3配置环境变量

3.3.1SPARK_HOME

3.3.2Path

4.Pyspark配置

4.1配置如下系统变量

4.2修改spark\conf下的spark-env文件

4.3拷贝pyspark到site-packages文件夹下

5.测试Pyspark是否安装成功


 

 

1.在控制台中测试ipython是否启动正常

既然要在Anaconda中配置spark,那么,anaconda的安装就不再赘述了,默认是有的。

这里先检查ipython是否正常,cmd命令窗口,输入,ipython,如下就证明可用。 

Anaconda中配置Pyspark的Spark开发环境--详解!

2.安装JDK

这里主要讲,JDK的环境配置。

2.1JAVA_HOME

首先,确定自己jdk的位置,然后配置系统变量,如下:蓝色部分写自己的地址

Anaconda中配置Pyspark的Spark开发环境--详解!

2.2CLASSPATH

增加:%JAVA_HOME%\lib\tools.jar;%JAVA_HOME%\lib\tools.jar;即可

Anaconda中配置Pyspark的Spark开发环境--详解!

2.3Path

增加:%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;%SPARK_HOME%\bin;即可

Anaconda中配置Pyspark的Spark开发环境--详解!

上面三个变量加好之后,测试一下:

2.4测试

 java命令:

Anaconda中配置Pyspark的Spark开发环境--详解!

javac命令:

Anaconda中配置Pyspark的Spark开发环境--详解!

这就证明成功了! 

3.安装Spark并配置环境变量

3.1下载

spark 官网地址:https://spark.apache.org/downloads.html

下载需要的版本

Anaconda中配置Pyspark的Spark开发环境--详解!

3.2解压到指定目录

我这里是放到了下面的目录

Anaconda中配置Pyspark的Spark开发环境--详解!

3.3配置环境变量

3.3.1SPARK_HOME

Anaconda中配置Pyspark的Spark开发环境--详解!

3.3.2Path

增加:%SPARK_HOME%\bin;

Anaconda中配置Pyspark的Spark开发环境--详解!

4.Pyspark配置

4.1配置如下系统变量

按照图中配置即可:

Anaconda中配置Pyspark的Spark开发环境--详解!

按照图中配置即可: 

Anaconda中配置Pyspark的Spark开发环境--详解!

增加:%SPARK_HOME%\python\lib\py4j;%SPARK_HOME%\python\lib\pyspark;  

Anaconda中配置Pyspark的Spark开发环境--详解!

4.2修改spark\conf下的spark-env文件

这里路径,写自己的anaconda路径

 export PYSPARK_PYTHON=/C:/ProgramData/Anaconda3
 export PYSPARK_DRIVER_PYTHON=/C:/ProgramData/Anaconda3
 export PYSPARK_SUBMIT_ARGS='--master local[*]'

Anaconda中配置Pyspark的Spark开发环境--详解!

4.3拷贝pyspark到site-packages文件夹下

首先找到自己路径下的文件:

Anaconda中配置Pyspark的Spark开发环境--详解!

拷贝到自己的anaconda文件下:

Anaconda中配置Pyspark的Spark开发环境--详解!

5.测试Pyspark是否安装成功

我在第一次测试时,由于java_home环境变量配置不对,所以报错:

unsupported major.minor version 52.0

这是因为:项目编译得到的class文件的版本高于运行环境中jre的版本号,高版本JDK编译的class不能在低版本的jvm虚拟机下运行,否则就会报这类错,因此无法运行!49,50,51,52是Java编译器内部的版本号,版本对应信息如下:
Unsupported major.minor version 52.0 对应于 JDK1.8(JRE1.8) 
Unsupported major.minor version 51.0 对应于 JDK1.7(JRE1.7) 
Unsupported major.minor version 50.0 对应于 JDK1.6(JRE1.6) 
Unsupported major.minor version 49.0 对应于 JDK1.5(JRE1.5) 

 我刚开始配置的是jre1.7因此报错,改成1.8就可以了,也是我上面java_home配置的。

配置成功后,输入pyspark会自动跳转到jupyternotebook页面上:

Anaconda中配置Pyspark的Spark开发环境--详解!

在jupyter里面测试:这就证明成功了!

Anaconda中配置Pyspark的Spark开发环境--详解!