关于Hadoop相关的各种概念及优缺点

Hadoop优势

关于Hadoop相关的各种概念及优缺点

hdfs定义

关于Hadoop相关的各种概念及优缺点

hdfs优点

关于Hadoop相关的各种概念及优缺点关于Hadoop相关的各种概念及优缺点

什么是hive

Hive:由Facebook开源用于解决海量结构化日志的数据统计。
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。
本质是:将HQL转化成MapReduce程序
1)Hive处理的数据存储在HDFS
2)Hive分析数据底层的实现是MapReduce
3)执行程序运行在Yarn上

Hive的优缺点

优点
1)操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。
2)避免了去写MapReduce,减少开发人员的学习成本。
3)Hive的执行延迟比较高,因此Hive常用于数据分析,对实时性要求不高的场合。
4)Hive优势在于处理大数据,对于处理小数据没有优势,因为Hive的执行延迟比较高。
5)Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。
缺点
1.Hive的HQL表达能力有限
(1)迭代式算法无法表达
(2)数据挖掘方面不擅长,由于MapReduce数据处理流程的限制,效率更高的算法却无法实现。
2.Hive的效率比较低
(1)Hive自动生成的MapReduce作业,通常情况下不够智能化
(2)Hive调优比较困难,粒度较粗

mapreduce定义

关于Hadoop相关的各种概念及优缺点

mapreduce优缺点

关于Hadoop相关的各种概念及优缺点关于Hadoop相关的各种概念及优缺点关于Hadoop相关的各种概念及优缺点

flume定义

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。

flume优点

1.2 Flume的优点
1.可以和任意存储进程集成。
2.输入的的数据速率大于写入目的存储的速率,flume会进行缓冲,减小hdfs的压力。
3.flume中的事务基于channel,使用了两个事务模型(sender + receiver),确保消息被可靠发送。

zookeeper定义

Zookeeper是一个分布式协调服务的开源概架,主要用来解决分布式集群中应用系统的一致性问题,例如怎样避免网时操作同一数据造成脏读的间题,ZooKee区本质上是一个分布式的小文件存储系统,提供基于类似于文件系统的目录树方式的数据存储,并且可以对树中的节点进行有效管理,从而用来维护和监控你存储的数据的状态变化,通过监控这些数据状态的变化,从而可以达到基于数据的集群管理,诸如:统一命名服务、分布式配置管理、分布式消息队列、分布式锁、分布式协调等功能。

zookeeper特点

关于Hadoop相关的各种概念及优缺点