初识Hadoop

1、hadoop 概述之Hadoop名字的由来

Hadoop 创造之父 Doug Cutting Spring 创造之父 Rod Johnson

Hadoop 名字的由来是 Doug Cutting 的孩子给他家一个黄色小熊的命名

Apache 社区的顶级项目官网域名规则：XXX.apache.org

hadoop.apache.org hive.apache.org hbase.apache.org spark.apache.org flink.apache.org storm.apache.org

reliable（可靠的） scalable（可扩展） distributed （分布式） computing（计算）

Apache Hadoop软件库是一个框架，它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它被设计成从单个服务器扩展到数千台机器，每台机器都提供本地计算和存储。库本身不是依赖硬件来提供高可用性，而是设计用于检测和处理应用程序层的故障，因此在计算机集群上提供高可用性服务，每个集群都可能容易出现故障。

Hadoop Common: 支持其他Hadoop模块的公共实用程序

Hadoop Distributed File System (HDFS™): 提供对应用程序数据的高吞吐量访问的分布式文件系统。

Hadoop YARN：作业调度和集群资源管理的框架。

Hadoop MapReduce：一个用于大型数据集并行处理系统。

Hadoop 核心组件只分布式文件系统HDFS

源自于Google的GFS论文，论文发表于2003年10月

HDFS是GFS的克隆版

HDFS特点：扩展性（数据量大，????机器）、容错性（以块存储到各个服务器副本）、海量数据存储

例子：

文件、块、副本

文件：test.log . 大小200M

块（block）：默认的blocksize是128M，2个块 = 128M + 72M

副本：HDFS默认3个副本

5台起机器分别把块1和块2以多副本的方式放到多个机器中，其实就是备份容灾一样挂掉一台服务器数据本部受到影响。

node1: blk1 blk2

node2:blk2

node3:blk1 blk2

node4:

node5:blk1

Hadoop核心组件之分布式计算框架MapReduce

源自于Google的MapReduce论文，改论文发表于2004年12月

MapReduce是Google MapReduce的克隆版

MapReduce特点：扩展性、容错性、海量数据离线处理

1、hadoop 概述之Hadoop名字的由来

Hadoop 创造之父 Doug Cutting Spring 创造之父 Rod Johnson

Hadoop 名字的由来是 Doug Cutting 的孩子给他家一个黄色小熊的命名

Apache 社区的顶级项目官网域名规则：XXX.apache.org

hadoop.apache.org hive.apache.org hbase.apache.org spark.apache.org flink.apache.org storm.apache.org

reliable（可靠的） scalable（可扩展） distributed （分布式） computing（计算）

Hadoop Common: 支持其他Hadoop模块的公共实用程序

Hadoop Distributed File System (HDFS™): 提供对应用程序数据的高吞吐量访问的分布式文件系统。

Hadoop YARN：作业调度和集群资源管理的框架。

Hadoop MapReduce：一个用于大型数据集并行处理系统。

Hadoop 核心组件只分布式文件系统HDFS

源自于Google的GFS论文，论文发表于2003年10月

HDFS是GFS的克隆版

HDFS特点：扩展性（数据量大，????机器）、容错性（以块存储到各个服务器副本）、海量数据存储

例子：

文件、块、副本

文件：test.log . 大小200M

块（block）：默认的blocksize是128M，2个块 = 128M + 72M

副本：HDFS默认3个副本

5台起机器分别把块1和块2以多副本的方式放到多个机器中，其实就是备份容灾一样挂掉一台服务器数据本部受到影响。

node1: blk1 blk2

node2:blk2

node3:blk1 blk2

node4:

node5:blk1

Hadoop核心组件之分布式计算框架MapReduce

源自于Google的MapReduce论文，改论文发表于2004年12月

MapReduce是Google MapReduce的克隆版

MapReduce特点：扩展性、容错性、海量数据离线处理

初识Hadoop

Input 数据写入 Splitting 数据分割 Mapping 数据映射 Shuffing数据从新洗牌 Reducing数据计算 Final result 最终结果

Hadoop核心组件之资源调度系统YARN

YARN：Yet Another Resource Negotiator

负责整个集群资源的管理和调度

YARN特点：扩展性、容错性、多框架资源统一调度

多框架资源统一调度一图说明：

初识Hadoop

Hadoop优势：

高可靠性：

1、数据存储：数据块多副本

2、数据计算：从新调度作业计算

高可扩展性：

1、存储/计算资源不够时，可以横向线性的扩展机器

2、一个集群可以包括数以千计的节点

其他优势：

1、存储在廉价的机器上，降低成本

2、成熟的生态圈

初识Hadoop

相关推荐