Hadoop学习总结(一)之Hadoop基础知识

1.Hadoop是什么

Apache Hadoop是一款支持数据密集型分布式应用程序并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据谷歌公司发表的MapReduce和Google文件系统的论文自行实现而成。所有的Hadoop模块都有一个基本假设,即硬件故障是常见情况,应该由框架自动处理。广义上讲Hadoop更像是一个Hadoop生态圈。
Hadoop学习总结(一)之Hadoop基础知识

2.Hadoop的发展

可以参靠Google在大数据方面的三篇论文,能够清楚了解其是怎样发展为现在版本。
GFS发展为HDFS,Map-Reduce发展为MapReduce,BigTable发展为HBase.
Hadoop学习总结(一)之Hadoop基础知识

3.Hadoop组成

Hadoop学习总结(一)之Hadoop基础知识

3.1 HDFS架构

HDFS(Hadoop Distributed File System)

  • NameNode(nn):存储文件的元数据
  • DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验
  • Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。

3.2YARN架构

Hadoop学习总结(一)之Hadoop基础知识

3.3MapReduce架构

MapReduce将计算过程分为两个阶段:Map和Reduce
1)Map阶段并行处理输入数据
2)Reduce阶段对Map结果进行汇总

3.4生态系统组成

Hadoop学习总结(一)之Hadoop基础知识

下一篇:Hadoop学习总结(二)之Centos7安装Hadoop-2.9.2及相应配置