HDFS 详解（代补充）

HDFS 详解：

① HDFS 是 Hadoop Distribute File System 的简称，意为：Hadoop 分布式文件系统。是 Hadoop 核心组件之一，作为最底层的分布式存储服务而存在。

② 分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统在大数据时代有着广泛的应用前景，它们为存储和处理超大规模数据提供所需的扩展能力。

③ HDFS 使用 Maste r和 Slave 结构对集群进行管理。

④ 一般一个 HDFS 集群只有一个 Namenode 和一定数目的 Datanode 组成。Namenode 是 HDFS 集群主节点，Datanode 是 HDFS 集群从节点，两种角色各司其职，共同协调完成分布式的文件存储服务。

HDFS 分块存储

① HDFS 将所有的文件全部抽象成为block块来进行存储，不管文件大小，全部一视同仁都是以block块的统一大小和形式进行存储，方便我们的分布式文件系统对文件的管理

② 所有的文件都是以block块的方式存放在HDFS文件系统当中，在Hadoop1当中，文件的block块默认大小是64M， Hadoop2当中，文件的block块大小默认是128M，block块的大小可以通过 hdfs-site.xml 当中的配置文件中指定

HDFS的管理者：Namenode and 辅助管理者：SecondaryNameNo

Namenode

① 维护管理文件系统的名字空间 (元数据信息)
② 负责确定指定的文件块到具体的 Datanode 结点的映射关系。
③ 维护管理 DataNode上报的心跳信息

SecondaryNameNo

① 负责辅助 NameNode 管理工作

工作者：DataNode

DataNode

① 负责工作，进行读写数据。周期向 NameNode 汇报。
② 负责管理用户的文件数据块(一个大的数据拆分成多个小的数据块)

HDFS 副本存储机制

① 第一份数据来源于客户端
② 第二份存放的位置是与第一个副本在相同机架上，且不在同一个节点，按照一定的规则（cpu 内存 IO使用率，硬
盘剩余容量）找到一个节点存放
③ 第三个副本的存放位置是与第一第二份数据副本不在同一个机架上，且逻辑与存放副本1和2的机架距离最近的机上
④ 按照一定的规则（cpu 内存 IO使用率，和硬盘剩余容量）找到一个节点进行存放

HDFS 详解（代补充）

HDFS 详解 ：

相关推荐

HDFS 详解：