Spark键值对操作（python实验版）

说明：此处介绍的是pair RDD特有的操作，前面介绍的基础RDD操作，也适用pair RDD。

一、创建pair RDD

1、将普通RDD转换成pair RDD时，使用map()实现。

pairs = lines.map(lambda x: (x.split(" ")[0], x)) #在Python中使用第一个单词作为键创建出一个pair RDD，如图：

二、Pair RDD的转化操作

（以键值对集合{(1, 2), (3, 4), (3, 6)}为例）

1、reduceByKey(func) ：合并具有相同键的值。

Spark键值对操作（python实验版）

2、groupByKey() ：对具有相同键的值进行分组，常用于单个数据分组，多个数据按键分组，参考下面函数cogroup( )

Spark键值对操作（python实验版）

上图最后结果：[(1,[2]),(3,[4,6])]

上面collect()是一个ResultIterable结果集迭代对象，我使用了list()函数转换为列表，然后打印。

3、combineByKey( createCombiner,mergeValue,mergeCombiners,partitioner) ：使用不同的返回类型合并具有相同键的值。

4、mapValues(func) ：对pairRDD中的每个值应用一个函数而不改变键。

5、flatMapValues(func) ：对pair RDD 中的每个值应用一个返回迭代器的函数，然后对返回的每个元素都生成一个对应原键的键值对记录。通常用于符号化。

Spark键值对操作（python实验版）

6、keys() ：返回一个仅包含键的RDD

Spark键值对操作（python实验版）

7、values() ：返回一个仅包含值的RDD

Spark键值对操作（python实验版）

8、sortByKey() ：返回一个根据键排序的RDD

该函数常用于数据排序，接收一个叫作ascending 的参数，表示我们是否想要让结果按升序排序（默认值为True）。还有一个参数numPartitions，该参数决定排序后的RDD的分区个数，默认排序后的分区个数和排序之前的个数相等，有时我们也可能想按完全不同的排序依据进行排序。要支持这种情况，我们可以提供自定义的比较函数。

升序：

Spark键值对操作（python实验版）