spark快速大数据分析之学习记录(六)

题外话:这是一个“连载”,主要用于记录并监督我每周的Spark学习进程

RDD常用函数【Python】

一、转化操作函数

1.filter:对RDD中每个元素进行操作,过滤出符合条件的元素,返回一个新RDD

spark快速大数据分析之学习记录(六)

2.map:对RDD中每个元素进行操作,返回一个新RDD,元素个数相同

 spark快速大数据分析之学习记录(六)

3.flatMap:对RDD中每个元素进行操作,然后将得到的数据集“拍扁”,返回一个新的RDD,元素个数>=原来的RDD,对比如下图

spark快速大数据分析之学习记录(六)

4.union:求RDD之间的并集;distinct:RDD元素去重;intersection:RDD之间的交集;subtract:RDD之间的差集;cartesian:笛卡尔积

spark快速大数据分析之学习记录(六)

spark快速大数据分析之学习记录(六)

spark快速大数据分析之学习记录(六)

spark快速大数据分析之学习记录(六)

spark快速大数据分析之学习记录(六)

二、行动操作函数

1.collect:返回RDD中的所有元素

spark快速大数据分析之学习记录(六)

2.count:返回RDD中元素个数;mean:求RDD的平均值;variance:求RDD的方差

spark快速大数据分析之学习记录(六)

spark快速大数据分析之学习记录(六)

3.countByValue:统计RDD中每个元素出现的个数,返回键值对

spark快速大数据分析之学习记录(六)

4.take:返回RDD前几个元素; top:返回最大的前几个元素

spark快速大数据分析之学习记录(六)

5.takeOrdered:按照元素的排序默认按升序返回前几个元素

spark快速大数据分析之学习记录(六)

或指定排序方式:

spark快速大数据分析之学习记录(六)

6.takeSample:RDD随机抽样,是否替代、抽几个、种子

spark快速大数据分析之学习记录(六)

spark快速大数据分析之学习记录(六)

7.reduce:对RDD中的元素进行并行整合(如累加/累乘)

spark快速大数据分析之学习记录(六)

spark快速大数据分析之学习记录(六)

8.fold:同reduce,需设定初始值(累加时初始值为0 ,累乘时初始值为1)

spark快速大数据分析之学习记录(六)

9.aggregate:返回不同类型的函数

spark快速大数据分析之学习记录(六)

(详情参考https://blog.****.net/u011011025/article/details/76206335

10.foreach:对RDD中每个元素应用函数

spark快速大数据分析之学习记录(六)