hdfs的写流程和读流程

1.写流程
1.Client调用FileSystem.create(filePath),去与NN节点进行RPC通信，check该路径下的文件是否已经存在？是否有权限创建该文件？假如OK，就创建一个新的文件，但是不关联任何的block，返回一个FSDataOutputStream对象；假如不OK，就返回错误信息
2.Client调用FSDataOutputStream对象的write方法，将第一个块写入第一个DN，第一个DN写完就传输给第二个DN,第二个DN写完就传输给第三个DN，当第三个DN写完，就返回一个ack packet给第二个DN，当第二个DN接受到第三个的DN的ack packet，就发送ack packet给第一个DN,当第一个DN接受到第二个的DN的ack packet，就返回ack packet给FSDataOutputStream对象，意思标识第一个块三个副本写完；然后其余的块依次这样写
3.当文件全部写完，Client调用FSDataOutputStream对象的close方法，关闭输出流，flush缓存区的数据包。
4.再调用FileSystem.complete(),告诉NN节点写入成功

对于操作来说无感知透明的
hdfs的写流程和读流程

2.读流程
1.client通过分布式FileSystem.open(path)方法，去与NN进行RPC通信，NN会校验是否存在权限是否OK。
2.校验完成后，返回文件的部分或全部的block列表(其实就是返回FSDataInputStream对象)
3.Client调用FSDataInputStream对象的read()方法
a.去与第一个块的最近的datanode进行read，读取完成后，会校验，假如OK，会关闭与当前的dn的通信。假设check fail,会记录失败的块+DN信息，下次就不会读取了，那么会去这个块的第二个DN地址读取(副本都一样读一个就行）
b.然后读取第二个块的最近的datanode,check后，会关闭与DN的通信
c.假设block列表读取完了，文件还没结束，就继续读取下一批次的block的列表
4.Client调用FSDataInputStream.close()，关闭输入流

整个过程是透明的无感知的我们也不关心
hdfs的写流程和读流程

hdfs的写流程和读流程

相关推荐