基于eclipse的spark开发环境搭建-python篇
软件版本说明
- java版本 :64位jdk-8u111-windows-x64.exe
- eclipse版本:64位scala-SDK-3.0.3-2.10-win32.win32.x86_64.zip
下载地址: - python版本:python2.7
下载地址:https://www.python.org/downloads/windows/ - spark版本spark-1.6.0-bin-hadoop2.6
下载地址:http://spark.apache.org/downloads.html - hadoop版本hadoop-2.6.0
下载地址:http://www.barik.net/archive/2015/01/19/172716/ - 操作系统版本WIN7
windows下python的安装
- 到https://www.python.org/downloads/windows/页面选择需要下载的python版本,我这里下载的是python2.7
- 安装python
- 将C:\Python27;C:\Python27\Scripts;添加到环境变量Path中
- 配置环境变量PYTHON_HOME:C:\Python27
- 配置环境变量PYTHON_EASY_HOME:C:\Python27\Scripts
windows下spark的安装
- 到http://spark.apache.org/downloads.html页面下载对应的spark版本,当前最新的spark版本2.1.0不支持windows的安装,因此这里我选择spark1.6.3版本进行安装
- 将下载spark-1.6.0-bin-hadoop2.6.tgz的压缩包,进行解压缩
- 将G:\java\software\spark-1.6.0-bin-hadoop2.6\bin添加到环境变量Path中去
- 配置环境变量SPARK_HOME G:\java\software\spark-1.6.0-bin-hadoop2.6
- 下载spark-1.6对应的hadoop-2.6,下载地址为http://www.barik.net/archive/2015/01/19/172716/
- 解压下载的hadoop-2.6.0.tar.gz
- 将G:\java\software\hadoop-2.6.0\bin添加到环境变量Path中去
- 创建HADOOP_HOME值为:G:\java\software\hadoop-2.6.0
- 将spark目录下的pyspark文件夹整个文件夹G:\java\software\spark-1.6.0-bin-hadoop2.6\python\pyspark拷贝到python安装目录C:\Python27\Lib\site-packages中
- 在cmd命令窗口运行pyspark,检查spark是否正常安装成功
- 在cmd命令行中运行pip install py4j安装相关库,如下图
eclipse安装pyDev插件
- 访问http://www.pydev.org/history_pydev.html页面去pydev的官网查看eclipse与pydev的版本对应信息,
- 访问http://www.pydev.org/download.html 页面获取对应pydev的在线安装的URL
- 当前eclipse为4.3,选择pyDev5.20进行安装,因此URL为http://www.pydev.org/update_sites/5.2.0/
- 打开eclipse,选择Help->Install New Software
选择安装插件:这里不建议将“Contact all update sites during install to find required software”前面的勾去掉,以免造成插件缺少依赖的软件导致不能正常使用