Hadoop入门简介
Hadoop入门
Hadoop概述
1.Hadoop是Apache提供的开源的、可靠的、可扩展的、用于分布式计算的框架
2.Hadoop除了官网提供的发行版以外,各大厂商也提供了发行版:Cloudera的CDH、华为
是HDP
3.Hadoop版本是特别混乱的
Hadoop发展
- 创始人:Doug Cutting(道格.卡丁)和Mike Cafarella 1.
在2002年,Doug和Mike为了实现搜索引擎Nutch爬取了全网的10亿个网页的数据 - 在2003年,Google发表了《The Google FileSystem》(GFS)阐述了google分布式存储的原理,但是并没有对外公开这个框架
- 在2004年,Doug和Mike根据谷歌论文设计实现了NDFS - Nutch Distributed
FileSystem,解决了海量数据的存储问题 - 在2004年,Google发表了《The Google MapReduce》阐述了Google的分布式计算的思
想,同样这篇论文也没有公开框架的使用 - Doug和Mike又根据这篇论文设计实现了用于Nutch的MapReduce
- 在Nutch0.8版本,Doug将NDFS和MapReduce从Nutch中分离出来组成了Hadoop,同时将NDFS更名为HDFS
- 在2008年,Doug加入了Yahoo,开源了Hadoop,在 Yahoo期间设计实现了Pig、HBase等框架
- 后来,Yahoo将Hadoop、Pig、HBase等全部贡献了Apache
Hadoop模块
- Hadoop Common:基本模块,用于支持其他模块
- Hadoop Distributed File System:分布式文件系统。用于存储数据
- Hadoop Yarn:用于进行任务调度和资源管理的框架
- Hadoop MapReduce:基于Yarn进行并行计算的框架
- Hadoop Ozone:用于进行对象存储 - 基于HDFS
- Hadoop Submarine:用于机器学习的引擎 - 2019.03.
了解了这么多,今后我们开始一起学习Hadoop的具体细节~~