PySpark空间计算学习总结—（1）windows10大数据环境安装

本文主要讲windows10里面大数据环境的安装，下一篇讲python环境安装及大数据程序测试

hadoop-2.7.6

jdk-8u171（jdk8的小版本也尽量高点）

scala-2011.8

spark-2.3.1-bin-hadoop2.7

winutils.exe

注意：

（1）上述文件下载解压缩安装就行(除了最后的 winutils.exe)，最好版本一致，否则容易出现很多问题；

（2）安装路径不能有空格（比如你的 jdk 安装在 C:\Program Files\Java\jre1.8.0_171 是有空格的，这样会导致 Spark 启动错误）；

（3）将 winutils.exe 放到 Hadoop 安装目录下（比如我放在 D:\App\spark\hadoop-2.7.6\bin 目录下）；

（4）Spark 最好安装带 hadoop 的，比如 spark-2.3.1-bin-hadoop2.7，不要安装 Spark2.3 这种；

(1)JAVA_HOME: JDK安装路径（D:\App\Java\jdk1.8.0_171）

(2)SCALA_HOME: Scala安装路径（D:\App\spark\scala）

(3)SPARK_HOME: Spark安装路径（D:\App\spark\spark-2.3.1-bin-hadoop2.7）

(4)HADOOP_HOME: Hadoop安装路径（D:\App\spark\hadoop-2.7.6）

(5)设置环境变量 PATH：将上面的（1）、（2）、（3）、（4）定义的几个路径加入到PATH中；

注意，有的说 HADOOP_HOME 可以不用加入到 PATH，最好还是加上。

（1）在 cmd 中输入 java -version 查看 java 是否安装成功；

PySpark空间计算学习总结—（1）windows10大数据环境安装

（2）cmd 中输入 spark-shell 查看 spark 是否安装成功，出现下面表示安装成功：

PySpark空间计算学习总结—（1）windows10大数据环境安装

注意：我第一次安装时总报错：Fail to find Spark jars directory. You need to build Spark before running…：

可能的原因是环境变量中安装的路径有空格，也有可能是之前我安装的是 Spark2.3，而不是 spark-2.3.1-bin-hadoop2.7，而且 Spark 版本、hadoop 版本和 winutils.exe 文件要对应，否则极有可能发生问题。

（3）百度云下载链接

链接：https://pan.baidu.com/s/1RWeM_EIFwWGr_K4PU-ZSJQ
提取码：1pyj