学习笔记-HDFS1.0/2.0

HDFS1.0

HDFS 由三个组件构成，完全是两种不同的进程（NameNode，DataNode）：

1，2属于Master 上，3属于Slave上也叫做work上

HDFS（存储）上的各个节点说明：

DataNode 最小的数据单元是block ，block默认是64M，可以通过配置文件修改

HDFS里面这个数据通常是顺序读的，原因就是吞吐能力

NameNode：

NameNode 管理文件系统命名空间
存储元数据
1. 文件名目录名以及之间的关系
2. 文件目录所有者权限
3. 每个文件块的名称及文件由哪些组成
元数据保存在内存中，在hdfs系统的运行期间，会定期保存元数据到fsimage ，运行期间会对元信息的操作都保存在内存中并持久化到edits，并且定期edits和fsimange文件会被SecondaryNameNode周期性合并
元数据中有两种很重要的数据，也可以认为是映射数据
1. 文件名 --》 block
2. block --》 dataNode
NameNode不会存储用户数据或执行MapReduce任务

通过以上第四点就可以说明client 找master 就知道该找哪个dataNode

DataNode：

两个文件:

SecondaryNameNode：

数据完整性校验，

HDFS会对写入的数据计算校验和，并在读取数据时验证校验和，通过CRC32的循环冗余校验码
数据块检测程序DataBlockScanner在DataNode节点上开启一个后台线程，来定期验证存储在它上的所有块，这是防止物理介质出现损失情况而造成数据损坏

HDFS特点：

HDFS副本管理策略：机架感知策略

HDFS和MapReduce本地模式：

HDFS2.0

NameNode HA

QJM（Hadoop的提供的一个服务，保证的NameNode间的数据同步，借助ZK）：

QJM实现高可用（HA）的原因：

Active NameNode和Standby NameNode同步目录镜像树，需要依赖JournalNodes守护进程，完成数据一致性

要保证这两个之间数据完全一致就需要两个一致：一个是数据（通过数据管理部保证），一个是命名空间（通过JN（QJM起来的进程）来保证的），一个集群中，最少要运行3个JN系统，使得系统有一定的容错能力

FailoverController进程（ZKFC）主要是用来故障转移用的（active的NN突然挂掉了，切换到NN待机）

ZKFC是ZK集群的客户端，ZKFC用来监控NN的状态信息（zkfc在ZK上创建临时节点，与NN保持心跳）

一个命名空间对应一个块池（是同一个命名空间下的所有块集合）

NameNode Federation

本质：将一部分文件迁移到其他NN上进行管理，只有元数据管理和存放被分隔开，但是真实数据存储还是共享

优势：

应用：新的文件系统viewfs（视图文件系统）

HDFS快照：主要用来做数据备份，一个只读的基于时间点的文件系统拷贝，快照并不影响HDFS的正常操作，快照数据是当前数据减去修改的部分计算出来的，会存在snapshottable目录下，对目录进行设定，只记录了块列表和文件大小，不会复制文件

HDFS2.0缓存 - “集中式缓存，通过中央节点提前把目录加载进去

Hadoop的ACL机制：和linux一致，在Hadoop2.4版本以后