【Hive】Hive的基本概念和安装

数据仓库Hive学习笔记

1 简介

什么是Hive

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。

其本质是将SQL转转为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更进一步可以说hive是一个MapReduce的客户端

为什么使用Hive

  • 采用了类SQL语法操作数据,提供快速开发的能力
  • 避免去写MapReduce,减少了开发人员的学习成本
  • 功能扩展方便

2 Hive的架构

用户接口:包括CLI、JDBC/ODBC、WebGUI,其中CLI为shell命令行,JDBC/ODBC是hive的java实现,webGUI是通过浏览器访问hive

元数据存储:通常存储在关系型数据库如mysql中

解析器(编译器、优化器、执行器)

MapReduce

HDFS、客户端

3 Hive与Hadoop的关系

  • Hive利用HDFS存储数据
  • Hive利用MapReduce查询分析数据

4 Hive与传统数据库的对比

Hive RDBMS
查询语言 HQL SQL
数据存储 HDFS Raw Device or Local FS
执行 MapReduce Excutor
延迟

项目对比:

【Hive】Hive的基本概念和安装

5 Hive的安装

选用Hive3.1.2版本,下载路径为:
https://mirrors.bfsu.edu.cn/apache/hive/hive-3.1.2/