大数据各组件原理总结(详细)

Hadoop 原理

hdfs读流程

HDFS文件读流程:
大数据各组件原理总结(详细)

客户端读取数据的过程如下:

(1)首先客户端会调用FileSystem. open()方法获取的dfs实例,dfs会向远程的NameNode发送RPC请求。
(2)然后NameNode会视情况返回文件的部分或全部的块列表,对于每个块呢,都包含块所在的DataNode地址,这些DataNode会按照Hadoop定义的集群拓扑结构得出客户端的距离,然后进行排序,客户端会选择离他最近的DataNode来读取块,如果客户端本身就是一个DataNode,那么将从本地读取文件。
(3)读取完当前块数据后,关闭当前的DataNode连接,并为读取下一个块寻找最佳的DataNode。
(4)然后客户端会继续向NameNode获取下一批块列表,当所有的block块完都读完后,这时就会调用close方法来完成资源的关闭操作。

hdfs写流程

HDFS文件写流程:
大数据各组件原理总结(详细)
客户端写数据的过程如下:

(1)检查目标文件是否已存在,父目录是否存在。
(2)NameNode 返回是否可以上传。不能上传会返回异常。
(3)确定可以上传,客户端请求第一一个block 上传到哪几个datanode服务器上
(4)NameNode返回3个datanode节点,假定分别为dn1、dn2、 dn3。
(5)客户端通过FSDataOutputStream模块请求dn1.上传数据,dn1 收到请求会继续调用dn2,然后dn2调用dn3,将这个通信管道建立完成。
(6)dn1. dn2、 dn3逐级应答客户端。
(7)客户端开始往dn1上传第一个block(先从磁盘读取数据放到一个本地内存缓存),以packet (64KB)为单位,dn1 收到一个packet就会传给dn2,dn2 传给dn3; dn1 每传一个packet会放入一个应答队列等待应答。
(8)当一个block传输完成之后,客户端再次请求NameNode上传第二个block的服务器。(重复执行3-7 步)。

或者点击此处去查看hdfs读写流程

Hive 原理

点击此处去查看相关内容

HBase 原理

点击此处去查看HBase读写数据流程

Flume 运行原理

Flume的运行原理是:Flume的核心角色为Agent,Flume分布式系统常常是由很多的Agent连接而形成的。Agent内部有三个组件,一是Source采集源,用于跟数据源对接,获取数据。二是Channel通道,Agent内部的数据传输通道,用于从source将数据传递到Sink。三是Sink目标地,采集数据的传送目的地,用于往下一级agent传递数据或者往最终存储系统传递数据。采集模式分为单级和多级采集模式。

kafka 原理

点击此处去查看相关内容

MapReduce 原理

点击此处去查看相关内容

Spark 原理

先上图:
大数据各组件原理总结(详细)

Spark运行的基本流程图:
大数据各组件原理总结(详细)
或者这个图:
大数据各组件原理总结(详细)
可以看出Spark运行经过以下几个阶段:
1、用户编写好SparkContext,新创建的SparkContext连接资源管理器cluster manager,其实Spark的还有其他优秀的资源管理器可以用,比如Standalone,Apache Mesos,YARN等。资源管理器根据用户提交SparkContext时的设置,分配CPU和内存等信息,也包括任务分配以及任务监控等,这些是SparkContext向资源管理器申请的。

2、资源管理器收到用户应用提交,为应用启动执行任务的进程executor。可以看到系统可以有很多工作节点WorkNode,executor为某工作节点的一个进程。executor通过心跳向资源管理器汇报运行情况,也就是实现任务调度与监控。

3、具体是怎么执行任务的?SparkContext是用户编写创建的,里面有环境配置信息以及应用程序。SparkContext内部是这样的:结合RDD对象和依赖关系创建出有向无环图——DAG图(我理解为拓扑结构),RDD是一种内存共享模型,全称为弹性分布式数据集,可以这么理解RDD从之前的RDD中衍生出来并包含了依赖信息(就是和之前的数据有啥不一样),这样避免了数据丢失时进行检查点操作(就是=一步一步查),它只需要找到父RDD就能很好的恢复,粗略的想象成C++的继承派生会好理解一点。创建成DAG图后调用DAG Scheduler调度器将DAG分为几个阶段,阶段就是任务集,然后交给任务调度器来处理,任务调度器TaskScheduler把任务task发送给executor,SparkContext将应用程序也发给executor来执行。任务控制点Driver会不断的调用task给executor来执行,直到完成或者超过运行次数。

从构成关系看,一个用户应用由一个任务控点Driver和几个作业job构成,作业由几个阶段stage构成,一个阶段由几个任务task构成,多个任务并发(多线程处理)开销更低效率更高。
从任务执行的角度看,控制点Driver向资源管理器申请资源,资源管理器启动executor,配置好环境,executor向控制点申请任务,task和应用程序发送给executor执行,迭代调用到任务完成。

其中:
1、Application:Spark应用程序:指的是用户编写的Spark应用程序,包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。

2、Driver:驱动程序:Spark中的Driver即运行上述Application的Main()函数并且创建SparkContext,其中创建SparkContext的目的是为了准备Spark应用程序的运行环境。在Spark中由SparkContext负责和ClusterManager通信,进行资源的申请、任务的分配和监控等;当Executor部分运行完毕后,Driver负责将SparkContext关闭。通常SparkContext代表Driver

3、Cluster Manager:资源管理器:指的是在集群上获取资源的外部服务,常用的有:Standalone,Spark原生的资源管理器,由Master负责资源的分配;Haddop Yarn,由Yarn中的ResearchManager负责资源的分配;Messos,由Messos中的Messos Master负责资源管理。

4、Executor:执行器:Application运行在Worker节点上的一个进程,该进程负责运行Task,并且负责将数据存在内存或者磁盘上,每个Application都有各自独立的一批Executor

5、Worker:计算节点:集群中任何可以运行Application代码的节点,类似于Yarn中的NodeManager节点。在Standalone模式中指的就是通过Slave文件配置的Worker节点,在Spark on Yarn模式中指的就是NodeManager节点,在Spark on Messos模式中指的就是Messos Slave节点

6、DAGScheduler:有向无环图调度器:基于DAG划分Stage 并以TaskSet的形势提交Stage给TaskScheduler;负责将作业拆分成不同阶段的具有依赖关系的多批任务;最重要的任务之一就是:计算作业和任务的依赖关系,制定调度逻辑。在SparkContext初始化的过程中被实例化,一个SparkContext对应创建一个DAGScheduler。

7、TaskScheduler:任务调度器:将Taskset提交给worker(集群)运行并回报结果;负责每个具体任务的实际物理调度。

8、Job:作业:由一个或多个调度阶段所组成的一次计算作业;包含多个Task组成的并行计算,往往由Spark Action催生,一个JOB包含多个RDD及作用于相应RDD上的各种Operation。

9、Stage:调度阶段:一个任务集对应的调度阶段;每个Job会被拆分很多组Task,每组任务被称为Stage,也可称TaskSet,一个作业分为多个阶段;Stage分成两种类型ShuffleMapStage、ResultStage。

ps:望多多支持,后续更新中。。。