分布式文件系统HFDFS---大数据技术原理与应用---笔记二

分布式文件系统HFDFS---大数据技术原理与应用---笔记二

一个文件被name node 分配到不同的data node

分布式文件系统HFDFS---大数据技术原理与应用---笔记二

名称节点的知道数据存储的数据节点位置，是通过数据节点向名称节点汇报得知的

名称节点启动后，FsImage文件从磁盘中被加载进内存中，和EditLog中各项操作合并，FsImage记录的是历史的相关数据结构的信息，对数据的修改是通过Editlog来记录的，将两者进行合并得到最新的元数据，editlog为空，继续进行新的记录，为什么这样做，是因为FsImage中的信息量太大，边保存边更新速度会非常慢。

如何解决主名称节点中editlog随操作量增多而导致文件过大和速度慢问题：
Secondary Namenode 会通过http get的方法在固定的时间间隔和主名称节点通信，如果主名称节点中的editlog过大，则取走了，让主名称节点重新生成editlog文件，第二名称节点结合editlog后形成新的fsIMage通过post传给主名称节点。

分布式文件系统HFDFS---大数据技术原理与应用---笔记二
冗余数据保存：
（1）加快数据传输速度（避免资源竞争）
（2）容易检查数据错误
（3）保证数据的可靠性