hadoop学习笔记--9.hive初识
一、hive基本介绍 |
Hive 是建立在 Hadoop 基础上的数据仓库基础构架,可以将结构化的数据文件映射为一张数据库表。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
hive由facebook开源,最初用于解决海量结构化的日志数据统计问题;数据计算使用MR,数据存储使用HDFS(可以与hbase集合),运行在yarn之上。可认为是一个HQL->MR的语言翻译器。
数据仓库
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制,简而言之,数据仓库是用来做查询分析的数据库,基本不用来做插入,修改,删除。
二、hive应用场景 |
-
日志分析
统计网站一个时间段内的pv、 uv
多维度数据分析、
大部分互联网公司使用Hive进行日志分析,包括百度、淘宝等 海量结构化数据离线分析
低成本进行数据分析(不直接编写MR)
Hive的执行延迟比较高,因此hive常用于数据分析的,对实时性要求不高的场合;
Hive优势在于处理大数据,对于处理小数据没有优势。
三、hive特点 |
不足
-
Hive的HQL表达的能力有限
迭代式算法无法表达
有些复杂运算用HQL不易表达 -
Hive效率不高
Hive自动生成MapReduce作业,通常不够智能
HQL调优困难,粒度较粗
可控性差
优势
操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手
避免了去写MapReduce,减少开发人员的学习成本
统一的元数据管理,可与impala/spark等共享元数据
易扩展(HDFS+MapReduce:可以扩展集群规模;支持自定义函数)
四、hive系统架构 |
客户端组件
1. 命令行接口(CLI)(hive shell)(最常用)
2. Web界面
3. hive应用(JDBC/ODBC/Thrift)(java访问hive)
驱动程序
该组件包括Complier、Optimizer和Executor,它的作用是将我们写的HiveQL(类SQL)语句进行解析、编译优化,生成执行计划,然后调用底层的mapreduce计算框架。
元数据存储
元数据服务组件,这个组件存储hive的元数据,hive的元数据存储在关系数据库里,hive支持的关系数据库有derby、mysql。元数据对于hive十分重要,因此hive支持把metastore服务独立出来,安装到远程的服务器集群里,从而解耦hive服务和metastore服务,保证hive运行的健壮性。默认存储在自带的数据库derby中,线上使用时一般换为MySQL。元数据包括:表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等;
Hadoop服务器