【Hive】Hive的基本概念和安装
数据仓库Hive学习笔记
- 第一部分:数据仓库
- 第二部分:Hive的基本概念
1 简介
什么是Hive
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。
其本质是将SQL转转为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更进一步可以说hive是一个MapReduce的客户端
为什么使用Hive
- 采用了类SQL语法操作数据,提供快速开发的能力
- 避免去写MapReduce,减少了开发人员的学习成本
- 功能扩展方便
2 Hive的架构
用户接口:包括CLI、JDBC/ODBC、WebGUI,其中CLI为shell命令行,JDBC/ODBC是hive的java实现,webGUI是通过浏览器访问hive
元数据存储:通常存储在关系型数据库如mysql中
解析器(编译器、优化器、执行器)
MapReduce
HDFS、客户端
3 Hive与Hadoop的关系
- Hive利用HDFS存储数据
- Hive利用MapReduce查询分析数据
4 Hive与传统数据库的对比
Hive | RDBMS | |
---|---|---|
查询语言 | HQL | SQL |
数据存储 | HDFS | Raw Device or Local FS |
执行 | MapReduce | Excutor |
延迟 | 高 | 低 |
项目对比:
5 Hive的安装
选用Hive3.1.2版本,下载路径为:
https://mirrors.bfsu.edu.cn/apache/hive/hive-3.1.2/