Hive基础1：Hive的基本介绍

1 Hive介绍

Hive（是一个数据仓库）是建立在 Hadoop HDFS上的数据仓库基础构架：
（1）保存数据。
（2）分析计算数据。
（3）依赖于HDFS和yarn。
（4）不能实时的更新数据。

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。

Hive是SQL解析引擎，它将SQL语句转译成M/R Job然后在Hadoop执行。

2 Hive特性

（1）Hive的表对应HDFS的文件夹（目录），表里的数据对应HDFS文件夹下的文件。
（2）Hive有自己的一套语法叫HQL，可将语句转换成Mapper和Reduer提交到集群来执行。
（3）Hive是一个分布式分析框架，不是用来存储数据的（不是存储框架）。

3 本质

将HQL转化成MapReduce程序：
Hive基础1：Hive的基本介绍
（1）Hive处理的数据存储在HDFS。
（2）Hive分析数据底层的实现是MapReduce。
（3）执行程序运行在Yarn上。
Hive就好比Hadoop的一个客户端，只进行数据的分析，不进行数据的存储。

4 Hive可用的接口

（1）JDBC/ODBC：在连接池和高并发方面存在许多的问题。
（2）WebUI：主要通过浏览器查看Hive的一些信息。

5 Hive的系统架构：

Hive基础1：Hive的基本介绍
（1）用户接口，包括 CLI，JDBC/ODBC，WebUI。
（2）元数据存储，通常是存储在关系数据库如 mysql, derby 中，mateStore：保存一些表、分区等的描述信息。海量的数据存储在HDFS。
（3）解释器、编译器、优化器、执行器。
（4）Hadoop：用 HDFS 进行存储，利用 MapReduce 进行计算。

6 Hive与Hadoop的关系

Hive利用HDFS存储数据，利用MapReduce查询数据。