Spark编程模型经典解析(三)
今天继续............
创建Pair RDD
什么是Pair RDD
包含键值对类型的RDD被称作Pair RDD
Pair RDD通常用来进行聚合计算
Pair RDD通常由普通RDD做ETL转换而来
代码实现
Pair RDD的transformation操作
Pair RDD转换操作1
Pair RDD 可以使用所有标准RDD 上转化操作,还提供了特有的转换操作。
代码,只有自己主动练!
Pair RDD转换操作2
针对两个RDD的转化操作
解读:
根据key相同,value连接
Pair RDD的action操作
Pair RDD转换操作1
● 所有基础RDD 支持的行动操作也都在pair RDD 上可用
Pair RDD的分区控制
自定义分区方式