Spark编程模型经典解析(三)

今天继续............

创建Pair RDD

什么是Pair RDD

包含键值对类型的RDD被称作Pair RDD

Pair RDD通常用来进行聚合计算

Pair RDD通常由普通RDDETL转换而来

代码实现

 Spark编程模型经典解析(三)

Pair RDD的transformation操作

Pair RDD转换操作1

Pair RDD 可以使用所有标准RDD 上转化操作,还提供了特有的转换操作。

 Spark编程模型经典解析(三)

代码,只有自己主动练!

Pair RDD转换操作2

针对两个RDD的转化操作

 Spark编程模型经典解析(三)

解读:

 Spark编程模型经典解析(三)

根据key相同,value连接

 

Pair RDD的action操作

Pair RDD转换操作1

 Spark编程模型经典解析(三)

● 所有基础RDD 支持的行动操作也都在pair RDD 上可用

Pair RDD的分区控制

 Spark编程模型经典解析(三)

自定义分区方式

 Spark编程模型经典解析(三)