PySpark空间计算学习总结—(1)windows10大数据环境安装
本文主要讲windows10里面大数据环境的安装,下一篇讲python环境安装及大数据程序测试
1、本机windows10电脑安装的环境为(后面有百度云下载链接):
hadoop-2.7.6
jdk-8u171(jdk8的小版本也尽量高点)
scala-2011.8
spark-2.3.1-bin-hadoop2.7
winutils.exe
注意:
(1)上述文件下载解压缩安装就行(除了最后的 winutils.exe),最好版本一致,否则容易出现很多问题;
(2)安装路径不能有空格(比如你的 jdk 安装在 C:\Program Files\Java\jre1.8.0_171 是有空格的,这样会导致 Spark 启动错误);
(3)将 winutils.exe 放到 Hadoop 安装目录下(比如我放在 D:\App\spark\hadoop-2.7.6\bin 目录下);
(4)Spark 最好安装带 hadoop 的,比如 spark-2.3.1-bin-hadoop2.7,不要安装 Spark2.3 这种;
2、环境变量配置
(1)JAVA_HOME: JDK安装路径(D:\App\Java\jdk1.8.0_171)
(2)SCALA_HOME: Scala安装路径(D:\App\spark\scala)
(3)SPARK_HOME: Spark安装路径(D:\App\spark\spark-2.3.1-bin-hadoop2.7)
(4)HADOOP_HOME: Hadoop安装路径(D:\App\spark\hadoop-2.7.6)
(5)设置环境变量 PATH:将上面的(1)、(2)、(3)、(4)定义的几个路径加入到PATH中;
注意,有的说 HADOOP_HOME 可以不用加入到 PATH,最好还是加上。
3、验证
(1)在 cmd 中输入 java -version 查看 java 是否安装成功;
(2)cmd 中输入 spark-shell 查看 spark 是否安装成功,出现下面表示安装成功:
注意:我第一次安装时总报错:Fail to find Spark jars directory. You need to build Spark before running…:
可能的原因是环境变量中安装的路径有空格,也有可能是之前我安装的是 Spark2.3,而不是 spark-2.3.1-bin-hadoop2.7,而且 Spark 版本、hadoop 版本和 winutils.exe 文件要对应,否则极有可能发生问题。
(3)百度云下载链接
链接:https://pan.baidu.com/s/1RWeM_EIFwWGr_K4PU-ZSJQ
提取码:1pyj