Hadoop集群配置与HDFS介绍

HDFS 文件系统的容量

理解:将多个节点的容量汇总成一个大的文件系统,在一个节点上传数据,在其的节点上都能够访问使用
Hadoop集群配置与HDFS介绍

Hadoop的组成

HDFS(海量数据存储系统),MapReduce(海量数据的计算系统计算框架),Yarn(集群资源管理框架)

HDFS的管理者:NameNode
作用:
1、维护 管理文件系统的名字空间(元数据信息)
2、负责确定指定的文件块到具体的Datanode结点的映射关系。
3、维护管理 DataNode上报的心跳信息
Hadoop集群配置与HDFS介绍
HDFS的辅助管理者:SecondaryNameNode
作用:负责NameNode管理工作
Hadoop集群配置与HDFS介绍
HDFS的工作者:DataNode
作用:
1、执行数据的读写(响应的是客户端)
2、周期性向NameNode做汇报(数据块的信息、校验和)
若datanode 10分钟没有向NameNode做汇报,表示已丢失(已宕机)
心跳周期 3秒 3、执行流水线的复制(一点一点复制)
Hadoop集群配置与HDFS介绍
MapReduce

Yarn 的管理者:ResourceManager
Yarn 的工作者:NodeManager

HDFS 副本存放机制

第一份数据来源于客户端
第二份存放的位置是与第一个副本在相同机架上,且不在同一个节点,按照一定的规则(cpu 内存 IO是用率,和硬
盘剩余容量)找到一个节点存放
第三个副本的存放位置是与第一第二份数据副本不在同一个机架上,且逻辑与存放副本1和2的机架距离最近的机上
按照一定的规则(cpu 内存 IO是用率,和硬盘剩余容量)找到一个节点进行存放
Hadoop集群配置与HDFS介绍