【二】hive概述
Hive由Facebook开源,最初用于解决海量结构化的日志数据统计问题。
它是构建在Hadoop之上的一个数据仓库,它的数据放在HDFS之上,最初计算框架用的MapReduce,现在支持多种计算引擎如Spark、Tez。
它定义了一种类SQL查询语言简称HQL。
Hive通常用来进行离线数据处理的。支持多种不同的压缩格式(GZIP、LZO、Snappy、BZIP2...)、存储格式(TextFile、SequenceFile、RCFile、ORC、Parquet)、自定义函数。
Hive采用统一元数据管理,这使得它可以与Impala、SparkSQL、Presto共享数据。
体系架构
部署架构
hive使用