大数据技术原理与应用(二):大数据处理架构Hadoop
Hadoop简介
Hadoop是Apache软件基金会旗下开源软件,是一个开源分布式计算平台
Hadoop屏蔽了大数据底层实现的细节,只需要按照它提供的更高层的接口,做一些简单的编程操作,后台所有的工作全部由整个系统自己实现。
Hadoop平台是利用java平台来开发的。但是Hadoop可以支持多种语言
Hadoop两大核心——HDFS(分布式文件系统)+MapReduce(分布式并行框架)
Hadoop特性
- 高可靠性 多台机器构成集群,部分机器发生故障,剩余机器可以继续对外提供服务
- 高效性 高效处理海量分布式数据集
- 高可拓展性 可以不断向Hadoop集群中添加节点
Hadoop的不同版本
把MapReduce框架所承担的任务给分解了,把它对资源的调度管理功能单独给划出来,不让它再去管资源调度了,只需要负责数据处理。将相关的负责资源处理的模块全部单独抽出来,做成一个新的框架,称为YARN
2.0版本的HDFS多了NN Federation和HA