Hadoop体系介绍

两个功能:

1、提供海量数据存储服务

2、提供分析海量数据的分析框架及运行平台


三大核心组件:

HDFS:存储服务

MapReduce:分布式运算框架(编程框架)(导Jar包写程序),海量数据运算分析,替代品是storm/spark。

Yarn:资源调度管理集群,可以理解是一个分布式操作系统,管理和调度硬件资源。


如何使用Hadoop:

1、可以吧Hadoop理解成一个编程框架,类比struts,提供api和编程规范等;

2、Hadoop同时也是一个提供服务的软件,类比Oracle,mysql等,用户通过客户端可以对集群请求服务来实现特定功能。


Hadoop历史来源:

GFS--HDFS

MapReduce--MapReduce

Bigtable--Hbase


HDFS,MapReduce加上从MapReduce中剥离出来的Yarn形成了Hadoop ,后来越来越多的框架和工具加入Hadoop生态体系。 


Hadoop封装的功能:

举例:从一个日志文件中获取同一手机号访问的站点数

1、数据量小:写一个简单的程序即可,数据量大时容易内存溢出。

Hadoop体系介绍



2、数据量巨大:需要将程序jar分别安装到不同的分布式机器上并进行环境配置,并对运行过程进行监控,对中间结果汇总输出等复杂的编码过程(Hadoop封装了如下过程)。

Hadoop体系介绍