Hadoop体系介绍
两个功能:
1、提供海量数据存储服务
2、提供分析海量数据的分析框架及运行平台
三大核心组件:
HDFS:存储服务
MapReduce:分布式运算框架(编程框架)(导Jar包写程序),海量数据运算分析,替代品是storm/spark。
Yarn:资源调度管理集群,可以理解是一个分布式操作系统,管理和调度硬件资源。
如何使用Hadoop:
1、可以吧Hadoop理解成一个编程框架,类比struts,提供api和编程规范等;
2、Hadoop同时也是一个提供服务的软件,类比Oracle,mysql等,用户通过客户端可以对集群请求服务来实现特定功能。
Hadoop历史来源:
GFS--HDFS
MapReduce--MapReduce
Bigtable--Hbase
HDFS,MapReduce加上从MapReduce中剥离出来的Yarn形成了Hadoop ,后来越来越多的框架和工具加入Hadoop生态体系。
Hadoop封装的功能:
举例:从一个日志文件中获取同一手机号访问的站点数
1、数据量小:写一个简单的程序即可,数据量大时容易内存溢出。
2、数据量巨大:需要将程序jar分别安装到不同的分布式机器上并进行环境配置,并对运行过程进行监控,对中间结果汇总输出等复杂的编码过程(Hadoop封装了如下过程)。