Hive理论概述
Hive
文章目录
1.Hive
2.Hive和Hadoop
越往后延迟越低,越往上算法越多
需要对Hadoop了解
以及对Hadoop的基本操作
3.Hive和Mysql
Mysql用于存储数据,Hive用于数据仓库
数据仓库是什么,数据仓库和数据库的区别。
3.1 数据仓库
将原来的数据进行抽取出来,然后集成起来就成为了数据仓库
数据仓库不可以更新和删除
数据仓库是用作查询的
数据仓库的数据谁随着时间的变化产生的数据的集合
3.2 数据仓库的建立
3.3 数据仓库的应用
OLAP和OLTP应用
3.4 数据仓库中的数据模型、
星型模型和雪花模型
3.4.1 星型模型
3.4.2 雪花模型
4.Hive基本知识
4.1 Hive
4.2 Hive的优势
相对于Map和Reduce来说比较方便
Hive将语句转化为MapReduce语句,然后转化为Hadoop上执行,然后反馈给用户
Hive作为一个开源框架节约了很多成本
存储在HDFS上。
4.3 Hive和HDFS
Hive的表是HDFS的目录
Hive的数据为HDFS的文件
所以说Hive是基于Hadoop之上的数据仓库
4.4 Hive元数据
主要存储在mysql,derby,orcal中