分布式文件系统HFDFS---大数据技术原理与应用---笔记二

分布式文件系统HFDFS---大数据技术原理与应用---笔记二

分布式文件系统HFDFS---大数据技术原理与应用---笔记二
分布式文件系统HFDFS---大数据技术原理与应用---笔记二
分布式文件系统HFDFS---大数据技术原理与应用---笔记二
一个文件被name node 分配到不同的data node

分布式文件系统HFDFS---大数据技术原理与应用---笔记二
分布式文件系统HFDFS---大数据技术原理与应用---笔记二
分布式文件系统HFDFS---大数据技术原理与应用---笔记二
名称节点的知道数据存储的数据节点位置,是通过数据节点向名称节点汇报得知的

名称节点启动后,FsImage文件从磁盘中被加载进内存中,和EditLog中各项操作合并,FsImage记录的是历史的相关数据结构的信息,对数据的修改是通过Editlog来记录的,将两者进行合并得到最新的元数据,editlog为空,继续进行新的记录,为什么这样做,是因为FsImage中的信息量太大,边保存边更新速度会非常慢。

如何解决主名称节点中editlog随操作量增多而导致文件过大和速度慢问题:
Secondary Namenode 会通过http get的方法在固定的时间间隔和主名称节点通信,如果主名称节点中的editlog过大,则取走了,让主名称节点重新生成editlog文件,第二名称节点结合editlog后形成新的fsIMage通过post传给主名称节点。

分布式文件系统HFDFS---大数据技术原理与应用---笔记二
冗余数据保存:
(1)加快数据传输速度(避免资源竞争)
(2)容易检查数据错误
(3)保证数据的可靠性

数据存放:
分布式文件系统HFDFS---大数据技术原理与应用---笔记二
数据读取:
就近读取,实在不行,随机读取

名称节点出错:
冷热备份

数据节点出错:
数据节点不向名称节点发送"还活"的信息,名称节点采取措施

数据出错:
校验码不匹配
分布式文件系统HFDFS---大数据技术原理与应用---笔记二

分布式文件系统HFDFS---大数据技术原理与应用---笔记二
读数据:
分布式文件系统HFDFS---大数据技术原理与应用---笔记二
写数据:
分布式文件系统HFDFS---大数据技术原理与应用---笔记二
流水线复制,传完以后,由最后一个副本节点传修改成功包,往前传一直到客户端

最关心的是这个:
分布式文件系统HFDFS---大数据技术原理与应用---笔记二

本地和HDFS有区别,在练习阶段容易搞混

下面是最关心的:
分布式文件系统HFDFS---大数据技术原理与应用---笔记二

总结:
分布式文件系统HFDFS---大数据技术原理与应用---笔记二