Spark实战学习

2.为什么要使用Spark?

因为Hadoop在处理数据的时候有多次的IO和网络操作,Mapreduce都要转成map,shuffle和reduce等核心阶段,而且任务之间是串行执行的

Spark对比Hadoop MR的特点

内存计算比mr快100倍,磁盘计算快mr10倍

使用方便,安装部署简单,支持交互式

支持处理丰富

继承hadoop,能都读取hadoop上的数据,hdfs,hbase等

Spark实战学习

RDD就是分布式弹性数据集,可以在定义app的时候指定,通常是加载外部资源数据或者是对象集合

RDD有两种操作,转换和动作

转换就是将原来的Rdd通过某种规则转换成新的RDD,转换是函数规则,例如map和Filter

动作就是求出结果

转换采用的是懒处理,只有当动作的时候,才会真真的计算

如果需要对一个RDD进行重用,可以通过rdd,persist()方法将其放入内存中

血统,也就是RDD之间的关系

RDDD本质上是一个只读的分区记录集合,每一个分区就是一个dataset(类似于mr中的文件切片)

map会产生窄依赖,groupby产生宽依赖

RDD的特征

通过RDD.toDebugString,可以看到当前RDD的血统

Spark实战学习

Spark实战学习

Standalone模式

Yarn-Cluster模式

Yarn-Client模式