【Hadoop】入门介绍
Hadoop 优势
- 高可靠性:hadoop底层维护多个数据副本,所以即使hadoop某个计算元素或存储出现故障,也不会导致数据丢失
- 高扩展性:在集群间分配任务数据,可方便扩展节点
- 高效性:在MapReduce思想下,Hadoop是并行工作的,以加快任务处理速度
- 高容错性:能够自动将失败的任务重新分配
Hadoop 1.x和Hadoop 2.x 区别
在Hadoop 1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大,在Hadoop 2.x时代,增加了Yarn,Yarn只负责资源的调度, MapReduce只负责运算
HDFS架构介绍
- NameNode(nn):存储文件的元数据,如文件,文件目录结构,文件属性,以及每个文件的块列表和块所在的DataNode
- DataNode(dn):在文件系统存储文件块数据,以及块数据的校验和
- Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照
YARN架构介绍
- ResourceManager(RM):
(1)处理客户端请求
(2)监控NodeManager
(3)启动或监控ApplicationMaster
(4)资源的分配与调度 - NodeManager(NM):
(1)管理单个节点上的资源
(2)处理来自ResourceManager的命令
(3)处理来自ApplicationMaster的命令 - ApplicationMaster(AM):
(1)负责数据的切分
(2)为应用程序申请资源并分配给内部的任务
(3)任务的监控与容错 - Container:
Container是YARN中的资源抽象,它封装了某个节点上地多维度资源,如内存,CPU,磁盘,网络等
MapReduce构架介绍
MapReduce将计算过程分为Map和Reduce
1)Map阶段并行处理输入数据
2)Reduce阶段对Map结果进行汇总