HDFS技术原理

HDFS技术原理

1.HDFS的概述及应用场景
(1)HDFS基于Google发布的GFS论文设计开发。
(2)其除具备其他分布式文件系统相同特征外,还有自己特有的特性:
高容错性:认为硬件总是不可靠的。
高吞吐量:为大数据访问的应用提供高吞吐量支持。
大文件存储:支持存储TB-PB级别数据。
(3)HDFS是Hadoop技术框架中的分布式文件系统,对部署在多台独立物理机器上的文件进行管理。
(4)可用于多种场景,如:
网站用户行为数据存储
生态系统数据存储
气象数据存储
2.HDFS在Fusionlnsight产品的位置
HDFS技术原理
3.HDFS系统架构
HDFS技术原理
4.关键特性介绍
(1)配置HDFS数据存储策略
DateNode上存在的不同的存储设备,数据需要选择一个合适的存储设备分级存储数据。
DateNode不同的目录中的数据重要的程度不同,数据需要根据目录标签选择一个合适的DateNode节点保存。
DateNode集群使用了导构服务器,关键数据需要保存在具有高度可靠性的节点组中。
(2)Colocation同分布
定义:将存在关联关系的数据或可能要进行关联操作的数据存储在相同的存储节点上。
(3)HDFS架构其他关键设计要点说明
统一的文件系统:HDFS对外仅呈现一个统一的文件系统。
空间回收机制:支持回收站机制,以及副本数的动态设置机制。
数据组织:数据存储以数据块为单位,存储在操作系统的HDFS文件系统上。
访问方式:提供JAVA API,HTTP方式,SHELL方式访问HDFS数据。