Hadoopd的体系架构
HDFS架构
- NameNode,元数据,消耗资源
- DataNode,保存数据
- Secondary NameNode,定期备份NameNode
YARN架构
工作流程:
- client提交任务,像ResourceManager(RM)发出申请,整个集群能干多少事,RM负责
- RM找到有空的Node Manager(NM), 每个Node Manager分管单个节点上的资源,NM还能干多少事需要给RM汇总
- NM接洽client, 找来(新建)项目负责人,App Master(AM),AM负责项目跟进,AM为了完成项目需要多少资源需要向RM申请
- RM从所有NM中找到空闲资源交给该AM管理
- 需要注意,一个NM下的任务是多个的,所以有多个AM,同时,每个AM得到的资源可以来自多个NM
MR的架构
其实这个只是一种计算思想,切分任务map,合并reduce
大数据生态体系
基于hadoop发展出来的生态体系。
- 不同数据被不同方式的系统处理
- 由YARN调度资源
- 任务处理分为离线和实时,同时也是不同框架负责
- 数据计算之上就是任务调度以及顶层的业务层面
- 所有框架之间的协调者,zookeeper