Hadoop权威指南 第1章 初始Hadoop

第1章 初始Hadoop

大数据面临的两个问题:
第一个需要解决的问题是硬件故障,Hadoop通过HDFS文件系统解决这个问题;
第二个问题是大部分分析任务需要通过某种方式把数据合并起来,MapReduce提供了一个编程模型
Hadoop提供了一个稳定的共享存储和分析系统,HDFS实现存储,MapReduce实现分析。

Hadoop权威指南 第1章 初始Hadoop
(更新一小部分数据库记录的时候,传统的B数效果很好,但是更新大部分数据库数据的时候,B树的效果就没有MapRdduce的效果好,因为B数需要使用排序/合并来重建数据库)MapReduce很适合以批处理的方式分析整个数据集的问题,传统关系型数据库更适合少量数据的查询和更新。
传统的关系型数据库要求数据是结构化的,MapReduce会在处理时解释数据,数据可以是非结构化数据。

MapReduce常识在计算节点本地存储数据(计算靠近数据,弱化带宽瓶颈影响),MapReduce在更高层面上完成任务,程序员从键\值对的角度来考虑,同时数据流是隐含的。

相关子项目:
Core:一系列分布式文件系统和通用IO的组件和接口
Avro:一种提供高效、跨语言RPC的数据序列系统,持久化数据存储
MapReduce:分布式数据处理模式和执行环境
HDFS:分布式文件系统
Pig:一种数据流语言和运行环境,用以检索非常大的数据集,Pig运行在MapReduce和HDFS集群上
Hbase:一个分布式的、列存储数据库。Hbase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询
ZooKeeper:一个分布式、高可用性的协调服务。
Hive:分布式数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据
Chukwa:分布式数据收集和分析系统