hadoop学习笔记--9.hive初识

一、hive基本介绍

　　Hive 是建立在 Hadoop 基础上的数据仓库基础构架，可以将结构化的数据文件映射为一张数据库表。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。
hive由facebook开源，最初用于解决海量结构化的日志数据统计问题；数据计算使用MR，数据存储使用HDFS（可以与hbase集合），运行在yarn之上。可认为是一个HQL->MR的语言翻译器。
数据仓库
　　数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制，简而言之，数据仓库是用来做查询分析的数据库，基本不用来做插入，修改，删除。

二、hive应用场景

日志分析

　　统计网站一个时间段内的pv、 uv
　　多维度数据分析、
　　大部分互联网公司使用Hive进行日志分析，包括百度、淘宝等
海量结构化数据离线分析
低成本进行数据分析（不直接编写MR）
Hive的执行延迟比较高，因此hive常用于数据分析的，对实时性要求不高的场合；
Hive优势在于处理大数据，对于处理小数据没有优势。

三、hive特点

不足

 Hive的HQL表达的能力有限

 迭代式算法无法表达
 有些复杂运算用HQL不易表达
 Hive效率不高

 Hive自动生成MapReduce作业，通常不够智能
 HQL调优困难，粒度较粗
 可控性差

优势
　　 操作接口采用类SQL语法，提供快速开发的能力(简单、容易上手
　　 避免了去写MapReduce，减少开发人员的学习成本
　　 统一的元数据管理，可与impala/spark等共享元数据
　　 易扩展(HDFS+MapReduce：可以扩展集群规模；支持自定义函数)

四、hive系统架构

hadoop学习笔记--9.hive初识

客户端组件
　　1. 命令行接口（CLI）（hive shell）（最常用）
　　2. Web界面
　　3. hive应用（JDBC/ODBC/Thrift)（java访问hive）

驱动程序
　　该组件包括Complier、Optimizer和Executor，它的作用是将我们写的HiveQL（类SQL）语句进行解析、编译优化，生成执行计划，然后调用底层的mapreduce计算框架。

元数据存储
　　元数据服务组件，这个组件存储hive的元数据，hive的元数据存储在关系数据库里，hive支持的关系数据库有derby、mysql。元数据对于hive十分重要，因此hive支持把metastore服务独立出来，安装到远程的服务器集群里，从而解耦hive服务和metastore服务，保证hive运行的健壮性。默认存储在自带的数据库derby中，线上使用时一般换为MySQL。元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；
　　
Hadoop服务器

hadoop学习笔记--9.hive初识

相关推荐