HDFS 详解(代补充)
HDFS 详解 :
① HDFS 是 Hadoop Distribute File System 的简称,意为:Hadoop 分布式文件系统。是 Hadoop 核心组件之一,作为最底层的分布式存储服务而存在。
② 分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统在大数据时代有着广泛的应用前景,它们为存储 和 处理超大规模数据 提供所需的扩展能力 。
③ HDFS 使用 Maste r和 Slave 结构对集群进行管理。
④ 一般一个 HDFS 集群只有一个 Namenode 和一定数目的 Datanode 组成。Namenode 是 HDFS 集群 主节点,Datanode 是 HDFS 集群 从节点,两种角色各司其职,共同协调完成分布式的文件存储服务。
① HDFS 将所有的文件全部 抽象成为block块 来进行存储,不管文件大小,全部一视同仁都是以block块的统一大小和形式进行存储,方便我们的分布式文件系统对文件的管理
② 所有的文件都是以block块的方式存放在HDFS文件系统当中,在Hadoop1当中,文件的block块默认大小是64M, Hadoop2当中,文件的block块大小默认是128M,block块的大小可以通过 hdfs-site.xml 当中的配置文件中指定
HDFS的管理者:Namenode and 辅助管理者:SecondaryNameNo
① 维护 管理 文件系统 的 名字空间 (元数据 信息)
② 负责确定指定的文件块到具体的 Datanode 结点的 映射关系。
③ 维护管理 DataNode上报 的 心跳信息① 负责 辅助 NameNode 管理工作
① 负责工作,进行读写数据。 周期向 NameNode 汇报。
② 负责 管理用户 的文件 数据块(一个 大的 数据 拆分 成 多个小的 数据块)
① 第一份数据 来源于 客户端
② 第二份存放的位置是与第一个副本在相同机架上,且不在同一个节点,按照一定的规则(cpu 内存 IO使用率,硬
盘剩余容量)找到一个节点 存放
③ 第三个副本 的 存放位置是与第一第二份数据副本不在同一个机架上,且 逻辑与存放副本1和2的机架距离最近的机上
④ 按照一定的规则(cpu 内存 IO使用率,和硬盘剩余容量)找到一个节点进行存放