HDFS 详解(代补充)

HDFS 详解 :

HDFS 基本介绍  

① HDFS Hadoop Distribute File System 的简称,意为:Hadoop 分布式文件系统。是 Hadoop 核心组件之一,作为最底层的分布式存储服务而存在。

② 分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统分布式文件系统在大数据时代有着广泛的应用前景,它们为存储 和 处理超大规模数据 提供所需的扩展能力 

③ HDFS 使用 Maste r和 Slave 结构对集群进行管理。

④ 一般一个 HDFS 集群只有一个 Namenode 和一定数目的 Datanode 组成。Namenode HDFS 集群 主节点Datanode HDFS 集群 从节点,两种角色各司其职,共同协调完成分布式的文件存储服务

HDFS 分块存储

        ①  HDFS 将所有的文件全部 抽象成为block块 进行存储,不管文件大小,全部一视同仁都是以block块的统一大小和形式进行存储,方便我们的分布式文件系统文件的管理

        ② 所有的文件都是以block块的方式存放在HDFS文件系统当中,在Hadoop1当中,文件的block块默认大小是64M, Hadoop2当中,文件的block块大小默认是128M,block块的大小可以通过 hdfs-site.xml 当中的配置文件中指定

HDFS 详解(代补充)

HDFS的管理者:Namenode    and   辅助管理者SecondaryNameNo

Namenode   

 维护 管理 文件系统 的 名字空间 (元数据 信息)
② 负责确定指定文件块到具体的 Datanode 结点的 映射关系
 维护管理 DataNode上报 的 心跳信息

SecondaryNameNo

① 负责 辅助 NameNode 管理工作

工作者:DataNode

DataNode

① 负责工作,进行读写数据。 周期向 NameNode 汇报
② 负责 管理用户 的文件 数据块(一个 大的 数据 拆分 成 多个小的 数据块)

HDFS 副本存储机制

① 第一份数据 来源于  客户端
② 第二份存放的位置是与第一个副本相同机架上,且不在同一个节点,按照一定的规则cpu 内存 IO使用率
盘剩余容量
)找到一个节点 存放
③ 第三个副本 的 存放位置是与第一第二份数据副本不在同一个机架上,且 逻辑存放副本1和2的机架距离最近的机上
④ 按照一定的规则cpu 内存 IO使用率,和硬盘剩余容量)找到一个节点进行存放

HDFS 详解(代补充)