Hive的基本概念

HIVE是什么

数据仓库：倾向于数据管理，管理的原始数据可以不是存储在自己本地

应用场景

模式

数据仓库：hive读模式时会进行校验，写模式不进行校验

数据库：关系型数据库一般是写模式，分布式数据库的模式无法确定

hive的优缺点

优点：延展性，可自定义函数

缺点：

hive和RDBMSDE的对比

Hive的基本概念

hive的架构

hive的数据组织格式

分区表：当数据量比较大的时候，在进行查询的时候，如果每一次都进行全表扫描，必然造成查询性能低

分区表就是将原来的表的原始数据进行分目录存储，相当于对原始表一个区块划分，将不同的分区存储在不同的目录下

目的：便于查询，在查询的时候可以减少查询的范围

分区表的表现形式：将表中的不同区的数据分别存储在不同的目录下

分桶表：（类似mapreduce的分区的概念）

作用：提升抽样的性能

提升join的性能

如：数据量比较大的时候先进行数据抽样抽取样本数据测试

抽样时可拿一个桶的数据作为样本数据

目录划分：将不同的桶的数据分别存储在不同的文件中

分桶的数据划分：分桶字段.hash%分桶个数

视图：提升hql语句的可读性

hive中的视图只存在逻辑视图，不存在物化视图

数据存储

元数据存储：元数据就是存储hive中表、库的相关描述信息存储在关系型数据库默认derby 一般改为mysql

hive中的数据库的描述信息：mysql表存储的是数据库表的描述信息每当hive中创建一个数据库的时候，这个表就添加一条数据

（注意：元数据信息可以修改的，一旦元数据修改，表结构就会修改hive的表结构相关数据（库，表，字段）从元数据库加载）

原始数据存储

读取的配置文件 hive-default.xml中，若要修改存储目录，可在hive-site.xml添加配置项hive.metastore.warehouse.dir