02 | Hadoop详细介绍
生活很美好,明天很艳丽。
目录
一.Hadoop介绍
Apache Hadoop是一款支持数据密集型分布式应用程序
并以Apache 2.0许可协议发布的开源软件框架
。它支持在商品硬件构建的大型集群
上运行的应用程序。Hadoop是根据谷歌公司发表的MapReduce和Google文件系统的论文自行实现而成
。所有的Hadoop模块都有一个基本假设
,即硬件故障是常见情况,应该由框架自动处理
。
Hadoop框架透明
地为应用提供可靠性
和数据移动
。它实现了名MapReduce
的编程范式:应用程序被分割成许多小部分
,而每个部分都能在集群中的任意节点上运行或重新运行
。此外,Hadoop还提供了分布式文件系统
,用以存储所有计算节点的数据,这为整个集群带来了非常高的带宽
。MapReduce和分布式文件系统的设计,使得整个框架能够自动处理节点故障
。它使应用程序与成千上万的独立计算的电脑和PB级的数据连接起来
。现在普遍认为整个Apache Hadoop“平台”包括Hadoop内核、MapReduce、Hadoop分布式文件系统(HDFS)以及一些相关项目,有Apache Hive和Apache HBase等等
二.主要子项目
-
Hadoop Common:在0.20及以前的版本中,包含HDFS、MapReduce和其他项目公共内容,从
0.21开始HDFS和MapReduce被分离为独立的子项目,其余内容为Hadoop Common
-
HDFS:
Hadoop分布式文件系统(
Distributed File System) HDFS(Hadoop DistributedFile System) -
MapReduce:
并行计算框架
,0.20前使用org.apache.hadoop.mapred旧接口,0.20版本
开始引入org.apache.hadoop.mapreduce的新API
三.相关项目
-
Apache
HBase
:分布式NoSQL列数据库,类似谷歌公司BigTable。 -
Apache
Hive
:构建于hadoop之上的数据仓库
,通过一种类SQL语言
HiveQL为用户提供数据的归纳、查询和分析
等功能。Hive最初由Facebook贡献。
-
Apache
Mahout
:机器学习算法软件包。 -
Apache
Sqoop
:结构化数据(如关系数据库)与Apache Hadoop之间的数据转换工具。
-
Apache
ZooKeeper
:分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献。
-
Apache
Avro
:新的数据序列化格式与传输工具
,将逐步取代Hadoop原有的IPC
机制。
四.知名用户
1.Hadoop在Yahoo!的应用
2008年2月19日,雅虎使用10,000
个微处理器核心的Linux
计算机集群运行一个Hadoop应用程序
2其他用户
五.Hadoop与Sun Grid Engine
昇阳电脑的Sun Grid Engine可以用来调度Hadoop Job
六.Hadoop与Condor
威斯康辛大学麦迪逊分校的Condor计算机集群软件也可以用作Hadoop Job的调度。
注:文章内容摘抄维基百科Hadoop内容
后面我会持续更新
,喜欢的小伙伴可以关注
或者点赞评论
哟…