一、hbase

hbase是一个实时分布式的高维数据库
基于hdfs文件存储系统，通过MapReduce计算，通过zookeeper监控协调，元数据存储在zookeeper中
主要用来存储结构化和非结构化的数据，查询的效率比较高，建立多个索引内部有序，按字典升序
是一个主从架构，主节点Hmaster和从节点RegionServer都是jvm进程，里面的数据，例如RegionServer的storefile都是进程的对象、
region：HBase自动把表水平划分成多个区域(region)，每个region会保存一个表里面某段连续的数据；每个表一开始只有一个region，随着数据不断插入表，region不断增大，当增大到一个阀值的时候，region就会等分会两个新的region（裂变）。当table中的行不断增多，就会有越来越多的region。这样一张完整的表被保存在多个Regionserver 上。
同一个region的数据存储在同一节点上
Hmaster的作用
- 1）管理hbase集群
- 2）负责region分配
- 3）负责发现regionServer
- 4）负责regionServer的负载平衡
- 5）负责将切分后的region分配给regionServer管理
regionServer的作用
- 1）管理region
- 2）负责处理region的读写请求
- 3）负责切分过大的region
Region是HBase中分布式存储和负载均衡的最小单元。
HRegion由一个或者多个Store组成，每个Strore又由一个memStore和0至多个StoreFile组成。
HBase表中的每个列都归属于某个列族，每个“列族”都可以有多个列成员(column)