spark--入门小练习
下载spark 2.X版本数据。
https://www.apache.org/dyn/closer.lua/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz
进行环境变量等相关配置。
在spark bin 目录下执行 :
bin/pyspark --》 进入spark目录下。执行shell脚本
PYSPARK_DRIVER_PYTHON=ipython bin/pyspark --> 使用ipython
============
搭建java版本练习项目
1.利用maven简单搭建一个项目
2.在pom文件中添加一个依赖(spark-core)---注意spark版本和之前下载的版本保持一致。


https://www.apache.org/dyn/closer.lua/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz
进行环境变量等相关配置。
在spark bin 目录下执行 :
bin/pyspark --》 进入spark目录下。执行shell脚本
PYSPARK_DRIVER_PYTHON=ipython bin/pyspark --> 使用ipython
============
搭建java版本练习项目
1.利用maven简单搭建一个项目
2.在pom文件中添加一个依赖(spark-core)---注意spark版本和之前下载的版本保持一致。
3.代码编写 使用lambda表达式简化操作
4.使用spark-submit进行提交
在spark的bin目录下,进行提交。 注意 class中使用的是 “.”表示层级关系,jar包中使用"/"表示层级关系。
在项目使用的输入目录,注意是否存在。
spark-submit --class learn.spark.demo.App /Users/xxx/IdeaProjects/xxx/xxx/exercise/target/exercise-1.0-SNAPSHOT.jar
问题1:
input.txt 不存在 —》在提交目录下进行创建
问题2:
pom中的spark版本和bin中运行的spark版本不一致