spark快速大数据分析之学习记录(六)
题外话:这是一个“连载”,主要用于记录并监督我每周的Spark学习进程
RDD常用函数【Python】
一、转化操作函数
1.filter:对RDD中每个元素进行操作,过滤出符合条件的元素,返回一个新RDD
2.map:对RDD中每个元素进行操作,返回一个新RDD,元素个数相同
3.flatMap:对RDD中每个元素进行操作,然后将得到的数据集“拍扁”,返回一个新的RDD,元素个数>=原来的RDD,对比如下图
4.union:求RDD之间的并集;distinct:RDD元素去重;intersection:RDD之间的交集;subtract:RDD之间的差集;cartesian:笛卡尔积
二、行动操作函数
1.collect:返回RDD中的所有元素
2.count:返回RDD中元素个数;mean:求RDD的平均值;variance:求RDD的方差
3.countByValue:统计RDD中每个元素出现的个数,返回键值对
4.take:返回RDD前几个元素; top:返回最大的前几个元素
5.takeOrdered:按照元素的排序默认按升序返回前几个元素
或指定排序方式:
6.takeSample:RDD随机抽样,是否替代、抽几个、种子
7.reduce:对RDD中的元素进行并行整合(如累加/累乘)
8.fold:同reduce,需设定初始值(累加时初始值为0 ,累乘时初始值为1)
9.aggregate:返回不同类型的函数
(详情参考https://blog.****.net/u011011025/article/details/76206335)
10.foreach:对RDD中每个元素应用函数