hdfs的写流程和读流程

1.写流程
1.Client调用FileSystem.create(filePath),去与NN节点进行RPC通信,check该路径下的文件是否已经存在?是否有权限创建该文件?假如OK,就创建一个新的文件,但是不关联任何的block,返回一个FSDataOutputStream对象;假如不OK,就返回错误信息
2.Client调用FSDataOutputStream对象的write方法,将第一个块写入第一个DN,第一个DN写完就传输给第二个DN,第二个DN写完就传输给第三个DN,当第三个DN写完,就返回一个ack packet给第二个DN,当第二个DN接受到第三个的DN的ack packet,就发送ack packet给第一个DN,当第一个DN接受到第二个的DN的ack packet,就返回ack packet给FSDataOutputStream对象,意思标识第一个块 三个副本写完;然后其余的块依次这样写
3.当文件全部写完,Client调用FSDataOutputStream对象的close方法,关闭输出流,flush缓存区的数据包。
4.再调用FileSystem.complete(),告诉NN节点写入成功

对于操作来说 无感知 透明的
hdfs的写流程和读流程

2.读流程
1.client通过分布式FileSystem.open(path)方法,去与NN进行RPC通信,NN会校验是否存在 权限是否OK。
2.校验完成后,返回文件的部分或全部的block列表(其实就是返回FSDataInputStream对象)
3.Client调用FSDataInputStream对象的read()方法
a.去与第一个块的最近的datanode进行read,读取完成后,会校验,假如OK,会关闭与当前的dn的通信。 假设check fail,会记录失败的块+DN信息,下次就不会读取了,那么会去这个块的第二个DN地址读取(副本都一样读一个就行)
b.然后读取第二个块的最近的datanode,check后,会关闭与DN的通信
c.假设block列表读取完了,文件还没结束,就继续读取下一批次的block的列表
4.Client调用FSDataInputStream.close(),关闭输入流

整个过程是透明的无感知的 我们也不关心
hdfs的写流程和读流程