Hive基础1:Hive的基本介绍

1 Hive介绍

Hive(是一个数据仓库) 是建立在 Hadoop HDFS上的数据仓库基础构架:
(1)保存数据。
(2)分析计算数据。
(3)依赖于HDFS和yarn。
(4)不能实时的更新数据。

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。

Hive是SQL解析引擎,它将SQL语句转译成M/R Job然后在Hadoop执行。

2 Hive特性

(1)Hive的表对应HDFS的文件夹(目录),表里的数据对应HDFS文件夹下的文件。
(2)Hive有自己的一套语法叫HQL,可将语句转换成Mapper和Reduer提交到集群来执行。
(3)Hive是一个分布式分析框架,不是用来存储数据的(不是存储框架)。

3 本质

将HQL转化成MapReduce程序:
Hive基础1:Hive的基本介绍
(1)Hive处理的数据存储在HDFS。
(2)Hive分析数据底层的实现是MapReduce。
(3)执行程序运行在Yarn上。
Hive就好比Hadoop的一个客户端,只进行数据的分析,不进行数据的存储。

4 Hive可用的接口

(1)JDBC/ODBC:在连接池和高并发方面存在许多的问题。
(2)WebUI:主要通过浏览器查看Hive的一些信息。

5 Hive的系统架构:

Hive基础1:Hive的基本介绍
(1)用户接口,包括 CLI,JDBC/ODBC,WebUI。
(2)元数据存储,通常是存储在关系数据库如 mysql, derby 中 ,mateStore:保存一些表、分区等的描述信息。海量的数据存储在HDFS。
(3)解释器、编译器、优化器、执行器 。
(4)Hadoop:用 HDFS 进行存储,利用 MapReduce 进行计算。

6 Hive与Hadoop的关系

Hive利用HDFS存储数据,利用MapReduce查询数据。