Hadoop概述
1. Hadoop简介(5分钟)
1.1 Hadoop架构
-
Hadoop由三个模块组成:分布式存储HDFS、分布式计算MapReduce、资源调度引擎Yarn
1.2 Hadoop历史
-
Hadoop作者Doug Cutting
-
Apache Lucene是一个文本搜索系统库
-
Apache Nutch作为前者的一部分,主要包括web爬虫、全文检索;2003年“谷歌分布式文件系统GFS”论文,2004年开源版本NDFS
-
2004年“谷歌MapReduce”论文,2005年Nutch开源版MapReduce