3-spark学习笔记-SparkAPI

3-spark学习笔记-SparkAPI

3-spark学习笔记-SparkAPI

3-spark学习笔记-SparkAPI3-spark学习笔记-SparkAPI

3-spark学习笔记-SparkAPI

3-spark学习笔记-SparkAPI

3-spark学习笔记-SparkAPI

3-spark学习笔记-SparkAPI

3-spark学习笔记-SparkAPI

3-spark学习笔记-SparkAPI

API详解如下所示:

3-spark学习笔记-SparkAPI

3-spark学习笔记-SparkAPI

3-spark学习笔记-SparkAPI

3-spark学习笔记-SparkAPI

3-spark学习笔记-SparkAPI

具体操作如下所示:

Transformer操作:

1、Map

3-spark学习笔记-SparkAPI

3-spark学习笔记-SparkAPI

2、filter

3-spark学习笔记-SparkAPI

3、flatMap

3-spark学习笔记-SparkAPI

4、mapPartitions

3-spark学习笔记-SparkAPI

5、mapPartitionsWithIndex

3-spark学习笔记-SparkAPI

6、repartition (数据分配不均、性能扩展比较慢,需要repartition 比较消耗资源,进行shuffle操作)

3-spark学习笔记-SparkAPI

7、coalesce  (减少partition操作 不做shuffle 性能更快速一些 shuffle = false)

3-spark学习笔记-SparkAPI

8、union

3-spark学习笔记-SparkAPI

9、join

3-spark学习笔记-SparkAPI

10、intersection -交集 可以用来算留存

3-spark学习笔记-SparkAPI

11、cogroup

3-spark学习笔记-SparkAPI

12、groupBy

3-spark学习笔记-SparkAPI

13、groupByKey

3-spark学习笔记-SparkAPI14、reduceBykey3-spark学习笔记-SparkAPI

15、sample   // false 不放回抽样 true放回抽样

3-spark学习笔记-SparkAPI

16、cartesian 笛卡尔积

3-spark学习笔记-SparkAPI

17、pipe  //执行上面执行一个shell 命令

3-spark学习笔记-SparkAPI

18、textFile

val inputRdd = sparkContext.textFile("file_path")

inputRdd.foreach(println(_))

inputRdd.map(_.length).saveAsTextFile("file_path")

 

Action:

collect、take、first、takesample等等