Hadoop权威指南第1章初始Hadoop

第1章初始Hadoop

大数据面临的两个问题：
第一个需要解决的问题是硬件故障，Hadoop通过HDFS文件系统解决这个问题；
第二个问题是大部分分析任务需要通过某种方式把数据合并起来，MapReduce提供了一个编程模型
Hadoop提供了一个稳定的共享存储和分析系统，HDFS实现存储，MapReduce实现分析。

Hadoop权威指南第1章初始Hadoop
（更新一小部分数据库记录的时候，传统的B数效果很好，但是更新大部分数据库数据的时候，B树的效果就没有MapRdduce的效果好，因为B数需要使用排序/合并来重建数据库）MapReduce很适合以批处理的方式分析整个数据集的问题，传统关系型数据库更适合少量数据的查询和更新。
传统的关系型数据库要求数据是结构化的，MapReduce会在处理时解释数据，数据可以是非结构化数据。

MapReduce常识在计算节点本地存储数据（计算靠近数据，弱化带宽瓶颈影响），MapReduce在更高层面上完成任务，程序员从键\值对的角度来考虑，同时数据流是隐含的。

相关子项目：
Core：一系列分布式文件系统和通用IO的组件和接口
Avro：一种提供高效、跨语言RPC的数据序列系统，持久化数据存储
MapReduce：分布式数据处理模式和执行环境
HDFS：分布式文件系统
Pig：一种数据流语言和运行环境，用以检索非常大的数据集，Pig运行在MapReduce和HDFS集群上
Hbase：一个分布式的、列存储数据库。Hbase使用HDFS作为底层存储，同时支持MapReduce的批量式计算和点查询
ZooKeeper：一个分布式、高可用性的协调服务。
Hive：分布式数据仓库。Hive管理HDFS中存储的数据，并提供基于SQL的查询语言（由运行时引擎翻译成MapReduce作业）用以查询数据
Chukwa：分布式数据收集和分析系统

Hadoop权威指南 第1章 初始Hadoop

第1章 初始Hadoop

相关推荐

Hadoop权威指南第1章初始Hadoop

第1章初始Hadoop