3-spark学习笔记-SparkAPI

API详解如下所示:

具体操作如下所示:

Transformer操作:

1、Map

3-spark学习笔记-SparkAPI

2、filter

3-spark学习笔记-SparkAPI

3、flatMap

3-spark学习笔记-SparkAPI

4、mapPartitions

3-spark学习笔记-SparkAPI

5、mapPartitionsWithIndex

3-spark学习笔记-SparkAPI

6、repartition (数据分配不均、性能扩展比较慢，需要repartition 比较消耗资源，进行shuffle操作)

3-spark学习笔记-SparkAPI

7、coalesce (减少partition操作不做shuffle 性能更快速一些 shuffle = false)

3-spark学习笔记-SparkAPI

8、union

3-spark学习笔记-SparkAPI

9、join

3-spark学习笔记-SparkAPI

10、intersection -交集可以用来算留存

3-spark学习笔记-SparkAPI

11、cogroup

3-spark学习笔记-SparkAPI

12、groupBy

3-spark学习笔记-SparkAPI

13、groupByKey

3-spark学习笔记-SparkAPI 14、reduceBykey

15、sample // false 不放回抽样 true放回抽样

3-spark学习笔记-SparkAPI

16、cartesian 笛卡尔积

3-spark学习笔记-SparkAPI

17、pipe //执行上面执行一个shell 命令

3-spark学习笔记-SparkAPI

18、textFile

val inputRdd = sparkContext.textFile("file_path")

inputRdd.foreach(println(_))

inputRdd.map(_.length).saveAsTextFile("file_path")

Action:

collect、take、first、takesample等等