Spark基础学习(一)
Spark核心概念 – RDD(弹性分布式数据集)
1、分布在集群中的只读对象集合(由多个Partition构成)
2、可以存储在磁盘或是内存
3、通过并行“转换”构成
4、失效后自动重构
基本操作
transformations
1、可以通过scala集合和hadoop数据集构成新的RDD
2、通过已有的RDD产生新的RDD
action
3、通过RDD计算得到一个值或是一组值
Spark核心概念 – RDD(弹性分布式数据集)
1、分布在集群中的只读对象集合(由多个Partition构成)
2、可以存储在磁盘或是内存
3、通过并行“转换”构成
4、失效后自动重构
基本操作
transformations
1、可以通过scala集合和hadoop数据集构成新的RDD
2、通过已有的RDD产生新的RDD
action
3、通过RDD计算得到一个值或是一组值