win10环境下单机eclipse+spark+scala配置
win10下eclipse+spark+scala单机spark环境搭建
学习条件下进行单机spark环境搭建。大致有以下6步
环境为eclipse+scala+JDK1.8+Spark2.4.3+Hadoop2.7
- 下载JAVA
- 下载eclipse
- eclipse下下载scala
- 下载配置spark
- 下载配置Hadoop
- 创建spark实例
- 注意事项
1.JAVA环境搭建
在Oracle官网下载JDK后进行环境的配置即可,具体过程较为简单,在此忽略
2.eclipse下载
具体那个版本的比较适合,没有进行测试,这里使用的是
3.eclipse下下载Scala
eclipse下进入help,选择Eclipse Marketplace
在Find中输入scala,选择Scala IDE 4.7.x安装即可
点confirm,默认安装即可。
也可以从scala官网下载安装包,再从eclipse->Help->install new software选择安装
可能是scala官网为.org的原因,下载速度较慢,可以进行后面步骤。
4.下载配置Spark
在spark官网,https://spark.apache.org/downloads.html 选择下载即可
当下载完成后进行解压
在cmd模式下进入解压后的spark中bin目录下运行spark shell
没有hadoop文件会报错
随后将spark的jar包进行打包
在Eclipse下选择windows->preference
找到Java->BuildPath->User Libraries.点击new创建用户lib,然后选择Add External JARs
将除了scala-compiler,scala-library(scala已经自带,防止冲突)的包导入,保存。在创建项目的时间导入。
5.下载Hadoop
在https://github.com/steveloughran/winutils/下下载Hadoop2.7包到本地
解压即可。
6.创建spark实例
在eclipse创建scala项目
导入自己创建的spark包
选择ScalaLibary为2.11,过高版本不兼容
将Spark文件夹中,examples里面的java文件见中JavaWordCount.java拷到这里
右键项目,选择最后Properities
选择Scala Complier
选中Use project Setting,设置如上
在Java文件点击run as 选择run configure,进行参数配置
-Dspark.master=local[*]
-Dhadoop.home.dir=D:\hadoop\hadoop-2.7.1
Program argument为待计数文件,随意选择即可
运行。
7. 注意事项
略