初识Hadoop
1、hadoop 概述之Hadoop名字的由来
Hadoop 创造之父 Doug Cutting Spring 创造之父 Rod Johnson
Hadoop 名字的由来是 Doug Cutting 的孩子给他家一个黄色小熊的命名
Apache 社区的顶级项目官网域名规则:XXX.apache.org
hadoop.apache.org hive.apache.org hbase.apache.org spark.apache.org flink.apache.org storm.apache.org
reliable(可靠的) scalable(可扩展) distributed (分布式) computing(计算)
Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它被设计成从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不是依赖硬件来提供高可用性,而是设计用于检测和处理应用程序层的故障,因此在计算机集群上提供高可用性服务,每个集群都可能容易出现故障。
Hadoop Common: 支持其他Hadoop模块的公共实用程序
Hadoop Distributed File System (HDFS™): 提供对应用程序数据的高吞吐量访问的分布式文件系统。
Hadoop YARN:作业调度和集群资源管理的框架。
Hadoop MapReduce:一个用于大型数据集并行处理系统。
Hadoop 核心组件只分布式文件系统HDFS
源自于Google的GFS论文,论文发表于2003年10月
HDFS是GFS的克隆版
HDFS特点:扩展性(数据量大,????机器)、容错性(以块存储到各个服务器副本)、海量数据存储
例子:
文件、块、副本
文件:test.log . 大小200M
块(block):默认的blocksize是128M,2个块 = 128M + 72M
副本:HDFS默认3个副本
5台起机器分别把块1和块2以多副本的方式放到多个机器中,其实就是备份容灾一样挂掉一台服务器数据本部受到影响。
node1: blk1 blk2
node2:blk2
node3:blk1 blk2
node4:
node5:blk1
Hadoop核心组件之分布式计算框架MapReduce
源自于Google的MapReduce论文,改论文发表于2004年12月
MapReduce是Google MapReduce的克隆版
MapReduce特点:扩展性、容错性、海量数据离线处理
1、hadoop 概述之Hadoop名字的由来
Hadoop 创造之父 Doug Cutting Spring 创造之父 Rod Johnson
Hadoop 名字的由来是 Doug Cutting 的孩子给他家一个黄色小熊的命名
Apache 社区的顶级项目官网域名规则:XXX.apache.org
hadoop.apache.org hive.apache.org hbase.apache.org spark.apache.org flink.apache.org storm.apache.org
reliable(可靠的) scalable(可扩展) distributed (分布式) computing(计算)
Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它被设计成从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不是依赖硬件来提供高可用性,而是设计用于检测和处理应用程序层的故障,因此在计算机集群上提供高可用性服务,每个集群都可能容易出现故障。
Hadoop Common: 支持其他Hadoop模块的公共实用程序
Hadoop Distributed File System (HDFS™): 提供对应用程序数据的高吞吐量访问的分布式文件系统。
Hadoop YARN:作业调度和集群资源管理的框架。
Hadoop MapReduce:一个用于大型数据集并行处理系统。
Hadoop 核心组件只分布式文件系统HDFS
源自于Google的GFS论文,论文发表于2003年10月
HDFS是GFS的克隆版
HDFS特点:扩展性(数据量大,????机器)、容错性(以块存储到各个服务器副本)、海量数据存储
例子:
文件、块、副本
文件:test.log . 大小200M
块(block):默认的blocksize是128M,2个块 = 128M + 72M
副本:HDFS默认3个副本
5台起机器分别把块1和块2以多副本的方式放到多个机器中,其实就是备份容灾一样挂掉一台服务器数据本部受到影响。
node1: blk1 blk2
node2:blk2
node3:blk1 blk2
node4:
node5:blk1
Hadoop核心组件之分布式计算框架MapReduce
源自于Google的MapReduce论文,改论文发表于2004年12月
MapReduce是Google MapReduce的克隆版
MapReduce特点:扩展性、容错性、海量数据离线处理
Input 数据写入 Splitting 数据分割 Mapping 数据映射 Shuffing数据从新洗牌 Reducing数据计算 Final result 最终结果
Hadoop核心组件之资源调度系统YARN
YARN:Yet Another Resource Negotiator
负责整个集群资源的管理和调度
YARN特点:扩展性、容错性、多框架资源统一调度
多框架资源统一调度一图说明:
Hadoop优势:
高可靠性:
1、数据存储:数据块多副本
2、数据计算:从新调度作业计算
高可扩展性:
1、存储/计算资源不够时,可以横向线性的扩展机器
2、一个集群可以包括数以千计的节点
其他优势:
1、存储在廉价的机器上,降低成本
2、成熟的生态圈