1.1、分布式存储系统HDFS 介绍

（1）存储模型：字节

文件线性切割成块（Block）:偏移量 offset ；

Block分散存储在集群节点中，单一文件Block大小一致，文件与文件可以不一致；

Block可以设置副本数，副本无序分散在不同节点中（副本数不要超过节点数量）；

文件上传可以设置Block大小和副本数，已上传的文件Block副本数可以调整，大小不变；

–只支持一次写入多次读取，同一时刻只有一个写入者；

–可以append追加数据。

（2）架构模型：

–文件元数据MetaData，文件数据

–（主）NameNode节点保存文件元数据：单节点 posix

–（从）DataNode节点保存文件Block数据：多节点

–DataNode与NameNode保持心跳，提交Block列表

–HdfsClient与NameNode交互元数据信息

–HdfsClient与DataNode交互文件Block数据（cs）

–DataNode 利用服务器本地文件系统存储数据块

（3）HDFS架构：

Hadoop学习（1）——组件介绍（HDFS）

NameNode（NN）：

（1）基于内存存储：不会和磁盘发生交换（双向）

（2）NameNode主要功能：接受客户端的读写服务、收集DataNode汇报的Block列表信息

（3）NameNode保存metadata信息包括：

（4）NameNode持久化：

SecondaryNameNode（SNN）：

（1）作用：它不是NN的备份（但可以做备份），它的主要工作是帮助NN合并edits log，减少NN启动时间。

（2）SNN执行合并时机：

DataNode（DN）：

（4）HDFS写流程

Hadoop学习（1）——组件介绍（HDFS）

Client：切分文件Block

-->按Block线性和NN获取DN列表（副本数）

-->验证DN列表后以更小的单位流式传输数据

-->各节点，两两通信确定可用

-->Block传输结束后：

-->最终Client汇报完成NN会在写流程更新文件状态

（5）HDFS读流程

Hadoop学习（1）——组件介绍（HDFS）

Client：

Hadoop学习（1）——组件介绍（HDFS）