1.HDFS概念

HDFS（Hadoop Distributed File System），分布式文件系统，用于存储文件。最大的特点是适合一次性的写入，多次的读取，并且已经写入的文件无法修改。

1.1 优缺点

优点：
1 高容错性：一份数据可以保存多份，避免丢失
2 适合大数据处理：能够处理百万规模以上的文件数量
3 价格低：将多台低性能集群组合成集群，提高性能
缺点：
1 不适合低延时的数据访问
2 不适合存储大量的小文件
3 不支持并发写入数据，而且无法修改

2.HDFS工作原理

HDFS详解
由四个部分组成，分别为HDFS Client、NameNode、DataNode和Secondary NameNode。
1）Client：就是客户端。
（1）文件切分。文件上传HDFS的时候，Client将文件切分成一个一个的Block，然后进行存储；
（2）与NameNode交互，获取文件的位置信息；
（3）与DataNode交互，读取或者写入数据；
（4）Client提供一些命令来管理HDFS，比如启动或者关闭HDFS；
（5）Client可以通过一些命令来访问HDFS；
2）NameNode：就是Master，它是一个主管、管理者。
（1）管理HDFS的名称空间；namespace
（2）管理数据块（Block）映射信息；
（3）配置副本策略（默认）；3
（4）处理客户端读写请求。
3） DataNode：就是Slave。NameNode下达命令，DataNode执行实际的操作。
（1）存储实际的数据块；
（2）执行数据块的读/写操作。
4） SecondaryNameNode：并非NameNode的热备。当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务。
（1）辅助NameNode，分担其工作量；
（2）定期合并Fsimage和Edits，并推送给NameNode；
（3）在紧急情况下，可辅助恢复NameNode。

2.1 写数据流程

1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。
2）NameNode返回是否可以上传。
3）客户端请求第一个 block上传到哪几个datanode服务器上。
4）NameNode返回3个datanode节点，分别为dn1、dn2、dn3。
5）客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。
6）dn1、dn2、dn3逐级应答客户端。
7）客户端开始往dn1上传第一个block（先从磁盘读取数据放到一个本地内存缓存），以packet为单位，dn1收到一个packet就会传给dn2，dn2传给dn3；
8）当一个block传输完成之后，客户端再次请求NameNode上传第二个block的服务器。（重复执行3-7步）。
（当集群有某一个节点挂掉，无法写入指定备份数量；hdfs会等到节点恢复之后，自动写入，不需要管理员再执行）

2.2 读数据流程

1）客户端通过Distributed FileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址。
2）挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据。
3）DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以packet为单位来做校验）。
4）客户端以packet为单位接收，先在本地缓存，然后写入目标文件。

HDFS详解

1.HDFS概念

1.1 优缺点

2.HDFS工作原理

2.1 写数据流程

2.2 读数据流程

相关推荐