Hadoop概述

1. Hadoop简介(5分钟)

官网:http://hadoop.apache.org

1.1 Hadoop架构

  • Hadoop由三个模块组成:分布式存储HDFS、分布式计算MapReduce、资源调度引擎YarnHadoop概述

1.2 Hadoop历史Hadoop概述

  • Hadoop作者Doug Cutting

  • Apache Lucene是一个文本搜索系统库

  • Apache Nutch作为前者的一部分,主要包括web爬虫、全文检索;2003年“谷歌分布式文件系统GFS”论文,2004年开源版本NDFS

  • 2004年“谷歌MapReduce”论文,2005年Nutch开源版MapReduce