hadoop开源组件功能描述
随着现在科技的发展,我们随处都能留下数据信息,我们现在也正处于一个信息爆炸的时代,那什么是大数据?怎么才算是大数据?大数据有哪些特点?大数据的大不单单指数据量大,当数据规模对现有技术构成挑战的时候构成大数据,机器无法处理,传统的系统无法满足现有的需求时就可以被称为大数据。
首先大数据特点简单分为4V
1.value:可以带来信息价值
2. volume:数据量巨大
3. variety:数据的形式多种多样
4. velocity:数据的生产速度很多
一、大数据的开源组件
1.hadoop分布式数据平台(分布式存储 HDFS 分布式计算 mapreduce【提供批量计算 有劣势】)
2.hbase:劣势数据库(存储在HDFS上),优势:查询速度很快
3.zookeeper:做协调,做节点和资源做协调
4.nutch:做分布式搜索引擎,做搜索引擎,进行大量数据采集的时候用,是hadoop的先驱。
5.storm:跟spark一样是计算引擎,可以进行流式计算
6.spark:计算引擎,在之上可以做内存计算 实时计算,速度是hadoop的100倍
7.yarn:管理组件
haadoop原生的计算引擎是MapReduce 但是他在内存计算等不强大,就有了storm,spark。
hive:提供交互式语言(类sql,函数和语法,底层的引擎是MapReduce,对延迟要求高的,不适合用mapreduce)
impala:跟hive的作用相同,做交互查询,速度快,自己的计算引擎。麒麟:底端是hadoop,hive,hbase,(把存在hadoop的数据,用hive计算,存在hbase),多维分区,秒级 亚秒级,结果预存在hbase里,实时建Q
现有系统 ——》 开源方式或者接口写入hadoop(通过spoop,kafka,flume)
二、hadoop 已经生成了自己的生态系
起源于Nutch(目的是构建大型的搜索引擎)
GFS(Google filesystem) MapReduce(分布式计算) Bigtable(谷歌的三篇论文)HDFS MapReduce hbase
1.架构master:主节点 【namenode resourceManager】
slave:从节点【datanode nodemanager】
namenode:负责记录数据库的存储空间,与DataNode进行通信。
datanode:实际的数据存储,与namenode进行通信(心跳相应),以供决策。
hadoop的运行模式:
单机模式
伪分布式模式
分布式模式