大数据基础之Hadoop——Yarn机制

Yarn概述

 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。

 其主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。

Yarn工作机制

大数据基础之Hadoop——Yarn机制

Yarn工作机制简述:

  1. 用户使用客户端向ResourceManager提交一个任务job,同时指定提交到哪个队列和需要多少资源。用户可以通过每个计算引擎的对应参数设置,如果没有特别指定,则使用默认设置。
  2. ResourceManager在收到任务提交的请求后,先根据资源和队列是否满足要求选择一个 NodeManager,通知它启动一个特殊的 container,称为 ApplicationMaster(AM),后续流程由它发起。
  3. ApplicationMaster向 ResourceManager注册后根据自己任务的需要,向ResourceManager申请 container,包括数量、所需资源量、所在位置等因素。
  4. 如果队列有足够资源,ResourceManager会将 container 分配给有足够剩余资源的 NodeManager,由 ApplicationMaster通知 NodeManager启动 container。
  5. container 启动后执行具体的任务,处理分给自己的数据。NodeManager除了负责启动 container,还负责监控它的资源使用状况以及是否失败退出等工作,如果 container 实际使用的内存超过申请时指定的内存,会将其杀死,保证其他 container 能正常运行。
  6. 各个 container 向 ApplicationMaster汇报自己的进度,都完成后,ApplicationMaster向 ResourceManager 注销任务并退出,ResourceManager通知 NodeManager杀死对应的 container,任务结束。