PySpark空间计算学习总结—(1)windows10大数据环境安装

本文主要讲windows10里面大数据环境的安装,下一篇讲python环境安装及大数据程序测试

1、本机windows10电脑安装的环境为(后面有百度云下载链接):

hadoop-2.7.6

jdk-8u171(jdk8的小版本也尽量高点)

scala-2011.8

spark-2.3.1-bin-hadoop2.7

winutils.exe

注意:

(1)上述文件下载解压缩安装就行(除了最后的 winutils.exe),最好版本一致,否则容易出现很多问题;

(2)安装路径不能有空格(比如你的 jdk 安装在 C:\Program Files\Java\jre1.8.0_171 是有空格的,这样会导致 Spark 启动错误);

(3)将 winutils.exe 放到 Hadoop 安装目录下(比如我放在 D:\App\spark\hadoop-2.7.6\bin 目录下);

(4)Spark 最好安装带 hadoop 的,比如 spark-2.3.1-bin-hadoop2.7,不要安装 Spark2.3 这种;

2、环境变量配置

(1)JAVA_HOME: JDK安装路径(D:\App\Java\jdk1.8.0_171)

(2)SCALA_HOME: Scala安装路径(D:\App\spark\scala)

(3)SPARK_HOME: Spark安装路径(D:\App\spark\spark-2.3.1-bin-hadoop2.7)

(4)HADOOP_HOME: Hadoop安装路径(D:\App\spark\hadoop-2.7.6)

(5)设置环境变量 PATH:将上面的(1)、(2)、(3)、(4)定义的几个路径加入到PATH中;

注意,有的说 HADOOP_HOME 可以不用加入到 PATH,最好还是加上。

3、验证

(1)在 cmd 中输入 java -version 查看 java 是否安装成功;

PySpark空间计算学习总结—(1)windows10大数据环境安装

(2)cmd 中输入 spark-shell 查看 spark 是否安装成功,出现下面表示安装成功:

PySpark空间计算学习总结—(1)windows10大数据环境安装

注意:我第一次安装时总报错:Fail to find Spark jars directory. You need to build Spark before running…:

可能的原因是环境变量中安装的路径有空格,也有可能是之前我安装的是 Spark2.3,而不是 spark-2.3.1-bin-hadoop2.7,而且 Spark 版本、hadoop 版本和 winutils.exe 文件要对应,否则极有可能发生问题。

(3)百度云下载链接

链接:https://pan.baidu.com/s/1RWeM_EIFwWGr_K4PU-ZSJQ 
提取码:1pyj

 

下一篇:PySpark空间计算学习总结—(2)python大数据环境安装