【Hadoop】入门介绍

Hadoop 优势
  1. 高可靠性:hadoop底层维护多个数据副本,所以即使hadoop某个计算元素或存储出现故障,也不会导致数据丢失
  2. 高扩展性:在集群间分配任务数据,可方便扩展节点
  3. 高效性:在MapReduce思想下,Hadoop是并行工作的,以加快任务处理速度
  4. 高容错性:能够自动将失败的任务重新分配
Hadoop 1.x和Hadoop 2.x 区别

在Hadoop 1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大,在Hadoop 2.x时代,增加了Yarn,Yarn只负责资源的调度, MapReduce只负责运算

【Hadoop】入门介绍

HDFS架构介绍
  1. NameNode(nn):存储文件的元数据,如文件,文件目录结构,文件属性,以及每个文件的块列表和块所在的DataNode
  2. DataNode(dn):在文件系统存储文件块数据,以及块数据的校验和
  3. Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照
YARN架构介绍
  1. ResourceManager(RM):
    (1)处理客户端请求
    (2)监控NodeManager
    (3)启动或监控ApplicationMaster
    (4)资源的分配与调度
  2. NodeManager(NM):
    (1)管理单个节点上的资源
    (2)处理来自ResourceManager的命令
    (3)处理来自ApplicationMaster的命令
  3. ApplicationMaster(AM):
    (1)负责数据的切分
    (2)为应用程序申请资源并分配给内部的任务
    (3)任务的监控与容错
  4. Container:
    Container是YARN中的资源抽象,它封装了某个节点上地多维度资源,如内存,CPU,磁盘,网络等
    【Hadoop】入门介绍
MapReduce构架介绍

MapReduce将计算过程分为Map和Reduce
1)Map阶段并行处理输入数据
2)Reduce阶段对Map结果进行汇总

大数据技术生态体系

【Hadoop】入门介绍