Hadoop之HDFS读写流程分析

[Hadoop] 图解HDFS读写流程（详细）

通过Cilent客户端向远程Namenode发送RPC（远程调用）请求
① Namenode 会检查要创建的文件是否已经存在，创建者是否有权限进行操作，成功则会为文件创建一个记录，否则会让客户端抛出异常；
② Namenode允许上传文件。同时把待上传的文件按照块大小（128M一块）进行逻辑切分
客户端请求上传第一个Block
Namenode 按照设定的副本数拉取一批可用Datanode节点返回给客户端
Datanode通过pipeline互相之间进行通信
客户端向Datanode1请求建立通道，Datanode1通过管道依次向Datanode2，Datanode3建立通道。
当返回应答成功时,客户端开启文件输出流
客户端开始以 pipeline（管道）的形式将 packet 写入所有的 replicas（副本节点）中。客户端把 packet 以流的方式写入第一个 datanode，该 datanode 把该 packet 存储之后，再将其传递给在此 pipeline 中的下一个 datanode，直到最后一个 datanode，这种写数据的方式呈流水线的形式。
传输一个packet后datanode向客户端返回传输成功消息，
同时客户端会有一个ack确认队列，成功收到 datanode 返回的 ack packet 后会从"data queue"移除相应的 packet。

[Hadoop] 图解HDFS读写流程（详细）

客户端调用FileSystem 实例的open 方法，获得这个文件对应的输入流InputStream。
通过RPC 远程调用NameNode ，获得NameNode 中此文件对应的数据块保存位置，包括这个文件的副本的保存位置( 主要是各DataNode的地址) 。
获得输入流之后，客户端调用read 方法读取数据。选择最近的DataNode 建立连接并读取数据。
如果客户端和其中一个DataNode 位于同一机器(比如MapReduce 过程中的mapper 和reducer)，那么就会直接从本地读取数据。
到达数据块末端，关闭与这个DataNode 的连接，然后重新查找下一个数据块。
不断执行第2 - 5 步直到数据全部读完。
客户端调用close ，关闭输入流FS InputStream。

著：本文图片搬运于尚硅谷大数据文字由自己整理

[Hadoop] 图解HDFS读写流程（详细）