windows eclipse如何搭建spark开发环境

这篇文章将为大家详细讲解有关windows eclipse如何搭建spark开发环境,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。

1、Java下Spark开发环境搭建

1.1、jdk安装

安装oracle下的jdk,我安装的是jdk 1.7,安装完新建系统环境变量JAVA_HOME,变量值为“C:\Program Files\Java\jdk1.7.0_79”,视自己安装路劲而定。

同时在系统变量Path下添加C:\Program Files\Java\jdk1.7.0_79\bin和C:\Program Files\Java\jre7\bin。

1.2 spark环境变量配置

去http://spark.apache.org/downloads.html网站下载相应hadoop对应的版本,我下载的是spark-1.6.0-bin-hadoop2.6.tgz,spark版本是1.6,对应的hadoop版本是2.6

解压下载的文件,假设解压 目录为:D:\spark-1.6.0-bin-hadoop2.6。将D:\spark-1.6.0-bin-hadoop2.6\bin添加到系统Path变量,同时新建SPARK_HOME变量,变量值为:D:\spark-1.6.0-bin-hadoop2.6

1.3 hadoop工具包安装

spark是基于hadoop之上的,运行过程中会调用相关hadoop库,如果没配置相关hadoop运行环境,会提示相关出错信息,虽然也不影响运行,但是这里还是把hadoop相关库也配置好吧。

1.3.1 去下载hadoop 2.6,我下载的是hadoop-2.6.0.tar.gz,

1.3.2 解压下载的文件夹,将相关库添加到系统Path变量中:D:\hadoop-2.6.0\bin;同时新建HADOOP_HOME变量,变量值为:D:\hadoop-2.6.0,下载winutils的windows版本,将winutils.exe加入你的hadoop-x.x.x/bin下,把hadoop.dll放入从C:/wondwos/system32下面。

1.4 eclipse环境

直接新建java工程,将D:\spark-1.6.0-bin-hadoop2.6\lib下的spark-assembly-1.6.0-hadoop2.6.0.jar添加到工程中就可以了。

2、Python下Spark开发环境搭建

2.1 安装python,并添加到系统变量path中:C:\Python27和C:\Python27\Scripts

2.2 重复1.2和1.3步骤

2.3 将spark目录下的pyspark文件夹(D:\spark-1.6.0-bin-hadoop2.6\python\pyspark)复制到python安装目录C:\Python27\Lib\site-packages里

2.4 在cmd命令行下运行pip install py4j(首先得安装了pip)安装相关库。

注意:我们在配置好环境变量后,在eclipse里进行编程,拿python为例,会报错:

File "test.py", line 10, in <module>
    conf=(SparkConf().setMaster('local').setAppName('a').setSparkHome('/home/dirk/spark-1.4.1-bin-hadoop2.6/bin'))
  File "/home/dirk/spark-1.4.1-bin-hadoop2.6/python/pyspark/conf.py", line 104, in __init__
    SparkContext._ensure_initialized()
  File "/home/dirk/spark-1.4.1-bin-hadoop2.6/python/pyspark/context.py", line 229, in _ensure_initialized
    SparkContext._gateway = gateway or launch_gateway()
  File "/home/dirk/spark-1.4.1-bin-hadoop2.6/python/pyspark/java_gateway.py", line 48, in launch_gateway
    SPARK_HOME = os.environ["SPARK_HOME"]
  File "/usr/lib/python2.7/UserDict.py", line 23, in __getitem__
    raise KeyError(key)
KeyError: 'SPARK_HOME'

这是因为eclipse并没有获取到配置的环境变量,我们可以通过

print os.getenv('SPARK_HOME')

检验,这时候我们重启电脑就可以了;如果不想重启电脑,我们可以通过

os.environ ['SPARK_HOME'] ='/home/dirk/spark-1.4.1-bin-hadoop2.6'

手动设置SPARK_HOME,这样我们的程序就可以正常运行了。

关于“windows eclipse如何搭建spark开发环境”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,使各位可以学到更多知识,如果觉得文章不错,请把它分享出去让更多的人看到。