spark--入门小练习

下载spark 2.X版本数据。
https://www.apache.org/dyn/closer.lua/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz
进行环境变量等相关配置。
在spark bin 目录下执行 :
bin/pyspark  --》 进入spark目录下。执行shell脚本
PYSPARK_DRIVER_PYTHON=ipython bin/pyspark -->  使用ipython


============
搭建java版本练习项目
1.利用maven简单搭建一个项目
2.在pom文件中添加一个依赖(spark-core)---注意spark版本和之前下载的版本保持一致。

3.代码编写  使用lambda表达式简化操作

4.使用spark-submit进行提交

在spark的bin目录下,进行提交。 注意 class中使用的是 “.”表示层级关系,jar包中使用"/"表示层级关系。

在项目使用的输入目录,注意是否存在。

spark-submit --class learn.spark.demo.App /Users/xxx/IdeaProjects/xxx/xxx/exercise/target/exercise-1.0-SNAPSHOT.jar

问题1:
input.txt 不存在  —》在提交目录下进行创建
问题2:
spark--入门小练习spark--入门小练习

pom中的spark版本和bin中运行的spark版本不一致