HDFS——HDFS体系结构（1）

一、HDFS体系结构

1、NameNode：名称节点

（*）职责：
（1）是HDFS的主节点、管理员
（2）接收客户端（命令行、Java程序）的请求：创建目录、上传数据、下载数据、删除数据等等
（3）管理和维护HDFS的日志和元信息

（*）日志文件（edits文件）

记录的是客户端的所有操作，同时体现了HDFS的最新的状态。
是一个二进制文件
位置：$HADOOP_HOME/tmp/dfs/name/current
edits_inprogress_0000000000000000107 代表：正在操作的日志文件

举例：hdfs dfs -mkdir /aaa
HDFS提供了一个日志查看器（edits viewer），把edits文件转成文本（XML）格式
命令：hdfs oev -i edits_inprogress_0000000000000000107 -o ~/a.xml

HDFS——HDFS体系结构（1）

（*）元信息文件（fsimage文件）

记录的是数据块的位置信息、数据块的冗余信息、没有提现HDFS的最新状态。
是一个二进制文件
位置：$HADOOP_HOME/tmp/dfs/name/current
HDFS提供了一个元信息查看器（image viewer），把fsimage文件转为文本或者xml都可以

HDFS——HDFS体系结构（1）

2、DataNode：数据节点

（*）职责：按照数据块保存数据库
1.x： 64M
2.x：128M

（*）数据块：表现形式：就是一个文件（blk*******）
位置：/root/training/hadoop-2.7.3/tmp/dfs/data/current/BP-1933998464-192.168.159.111-1552942956824/current/finalized/subdir0/subdir0

HDFS——HDFS体系结构（1）

举例：上传一个大于128M的文件

HDFS——HDFS体系结构（1）

134217728 + 79874467 = 214092195

HDFS——HDFS体系结构（1）

（*）设置数据块冗余度原则：一般跟数据节点的个数一样；但是最大不要超过3
（*）Hadoop 3.x以前，会造成存储空间的极大浪费
Hadoop 3.x以后，HDFS纠删码技术，大大的节约存储的空间（节约一半）

3、SecondaryNameNode：第二名称节点

职责：进行日志信息的合并

（*）由于edits文件记录了最新的状态信息，并且随着操作越多，edits就会越大
（*）把edits中的最新信息写到fsimage中
（*）edits文件就可以清空

HDFS——HDFS体系结构（1）

补充点知识：检查点checkpoint
（*）Spark中的RDD的检查点：容错机制
（*）Oracle中的检查点：会以最高优先级唤醒数据库的写进程，将脏数据写入硬盘文件

HDFS——HDFS体系结构（1）

一、HDFS体系结构

1、NameNode：名称节点

2、DataNode：数据节点

3、SecondaryNameNode：第二名称节点

相关推荐