您的位置: 首页 > 文章 > spark快速大数据分析之学习记录（六）

spark快速大数据分析之学习记录（六）

分类: 文章 • 2022-10-05 17:18:37

题外话：这是一个“连载”，主要用于记录并监督我每周的Spark学习进程

RDD常用函数【Python】

一、转化操作函数

1.filter:对RDD中每个元素进行操作，过滤出符合条件的元素，返回一个新RDD

spark快速大数据分析之学习记录（六）

2.map:对RDD中每个元素进行操作，返回一个新RDD,元素个数相同

spark快速大数据分析之学习记录（六）

3.flatMap:对RDD中每个元素进行操作，然后将得到的数据集“拍扁”，返回一个新的RDD，元素个数>=原来的RDD,对比如下图

spark快速大数据分析之学习记录（六）

4.union:求RDD之间的并集；distinct:RDD元素去重；intersection：RDD之间的交集；subtract:RDD之间的差集；cartesian:笛卡尔积

spark快速大数据分析之学习记录（六）

spark快速大数据分析之学习记录（六）

spark快速大数据分析之学习记录（六）

spark快速大数据分析之学习记录（六）

spark快速大数据分析之学习记录（六）

二、行动操作函数

1.collect:返回RDD中的所有元素

spark快速大数据分析之学习记录（六）

2.count:返回RDD中元素个数；mean:求RDD的平均值；variance:求RDD的方差

spark快速大数据分析之学习记录（六）

spark快速大数据分析之学习记录（六）

3.countByValue:统计RDD中每个元素出现的个数，返回键值对

spark快速大数据分析之学习记录（六）

4.take:返回RDD前几个元素; top:返回最大的前几个元素

spark快速大数据分析之学习记录（六）

5.takeOrdered：按照元素的排序默认按升序返回前几个元素

spark快速大数据分析之学习记录（六）

或指定排序方式：

spark快速大数据分析之学习记录（六）

6.takeSample:RDD随机抽样，是否替代、抽几个、种子

spark快速大数据分析之学习记录（六）

spark快速大数据分析之学习记录（六）

7.reduce:对RDD中的元素进行并行整合（如累加/累乘）

spark快速大数据分析之学习记录（六）

spark快速大数据分析之学习记录（六）

8.fold:同reduce,需设定初始值（累加时初始值为0 ，累乘时初始值为1）

spark快速大数据分析之学习记录（六）

9.aggregate:返回不同类型的函数

spark快速大数据分析之学习记录（六）

（详情参考https://blog.****.net/u011011025/article/details/76206335）

10.foreach:对RDD中每个元素应用函数

spark快速大数据分析之学习记录（六）