Hadoop入门简介

Hadoop入门

Hadoop概述

1.Hadoop是Apache提供的开源的、可靠的、可扩展的、用于分布式计算的框架
2.Hadoop除了官网提供的发行版以外,各大厂商也提供了发行版:Cloudera的CDH、华为
是HDP
3.Hadoop版本是特别混乱的
Hadoop入门简介

Hadoop发展

  1. 创始人:Doug Cutting(道格.卡丁)和Mike Cafarella 1.
    在2002年,Doug和Mike为了实现搜索引擎Nutch爬取了全网的10亿个网页的数据
  2. 在2003年,Google发表了《The Google FileSystem》(GFS)阐述了google分布式存储的原理,但是并没有对外公开这个框架
  3. 在2004年,Doug和Mike根据谷歌论文设计实现了NDFS - Nutch Distributed
    FileSystem,解决了海量数据的存储问题
  4. 在2004年,Google发表了《The Google MapReduce》阐述了Google的分布式计算的思
    想,同样这篇论文也没有公开框架的使用
  5. Doug和Mike又根据这篇论文设计实现了用于Nutch的MapReduce
  6. 在Nutch0.8版本,Doug将NDFS和MapReduce从Nutch中分离出来组成了Hadoop,同时将NDFS更名为HDFS
  7. 在2008年,Doug加入了Yahoo,开源了Hadoop,在 Yahoo期间设计实现了Pig、HBase等框架
  8. 后来,Yahoo将Hadoop、Pig、HBase等全部贡献了Apache

Hadoop模块

  1. Hadoop Common:基本模块,用于支持其他模块
  2. Hadoop Distributed File System:分布式文件系统。用于存储数据
  3. Hadoop Yarn:用于进行任务调度和资源管理的框架
  4. Hadoop MapReduce:基于Yarn进行并行计算的框架
  5. Hadoop Ozone:用于进行对象存储 - 基于HDFS
  6. Hadoop Submarine:用于机器学习的引擎 - 2019.03.

了解了这么多,今后我们开始一起学习Hadoop的具体细节~~