Hive（1）初识Hive

基本组成（用户接口）
CLI：是一个和Hive通过命令行交互的接口。
thrift server（JDBC/ODBC）：提供了可以从不同编程语言编写的客户端访问Hive的接口，支持身份验证和多用户并发访问。
Web UIHive Web Interface）：Web接口，可以通过浏览器访问Hive。
元数据存储
1）元数据是什么？
存储在Hive中的数据的描述信息
2）有哪些？
表的名、表的列和分区以及属性（内部表和外部表）、表的数据所在目录
3）存在哪儿？
自带Derby。缺点：不适合多用户操作，并且数据存储目录不确定
4）解决方案
存在自己创建的MySQL中（本地或远程）
解释器、编译器、优化器、执行器
这四大组件完成 HQL 查询语句从词法分析、语法分析、编译、优化以及生成查询计划的生成。生成的查询计划存储在 HDFS 中，并随后由 MapReduce 调用执行
执行流程
HiveQL 通过命令行或者客户端提交，经过 Compiler 编译器，运用 MetaStore 中的元数据进行类型检测和语法分析，生成一个逻辑方案(logical plan)，然后通过的优化处理，产生一个 MapReduce 任务

Hive（1）初识Hive
Hive 将 HQL 转换成 MapReduce 执行， Hive 依赖于 HDFS 存储数据
所以说 Hive 是基于 Hadoop 的一个数据仓库工具，实质就是一款基于 HDFS 的 MapReduce 计算框架

Hive（1）初识Hive
Hive 具有 SQL 数据库的外表，但应用场景完全不同， Hive 只适合用来做批量海量数据统计分析，也就是数据仓库

优点：Hive作为一个基于Hadoop的数据仓库工具，提供了简单的SQL查询功能，简化了MapReduce的编写操作，适用于大数据集的批处理作业，例如，网络日志分析。

缺点：Hive的HQL表达能力有限，对于较复杂的运算HQL不易表达；另外，Hive具有高延迟性，不适合那些低延迟的应用，如：OLTP系统。它不提供实时的查询和基于行级的数据更新操作，

用户提交SQL给HIve，由Driver负责解析SQL，在解析时会加载相关的元数据信息，生成执行计划，然后生成Job交给Hadoop运行，然后Driver将结果返回给用户。

1、语义解析器（ParseDriver），将查询字符串转换成解析树表达式；

2、语法解析器（SemanticAnalyzer），将解析树转换成基于语句块的内部查询表达式；

3、逻辑计划生成器（Logical Plan Generator），将内部查询表达式转换为逻辑计划，这些计划由逻辑操作树组成，操作符是Hive的最小处理单元，每个操作符处理代表一道HDFS操作或者是MR作业；

4、查询计划生成器（QueryPlan Generator），将逻辑计划转化成物理计划（MR Job）。

生成的查询计划存储在 HDFS 中，并在随后由 MapReduce 调用执行。