3）HBase（原理）

读流程

①客户端先访问Zookeeper，从meta表中读取region（HBase表的分片，RegionServer会根据RowKey的值被切分成不同的region存储在RS中，一个RS可以有多个不同region）所在的位置，
②ZK返回给Client结果（在RS1：hadoop102）
③客户端向RS1请求Rowkey所在的位置
④RS1返回结果（在RS4）
⑤客户端向RS4请求读取数据(先从MemStore找数据，如果没有，再到BlockCache里面读,BlockCache还没有，再到StoreFile上读(为了读取的效率))
⑥RS4返回结果（如果是从StoreFile里面读取的数据，不是直接返回给客户端，而是先写入BlockCache，再返回给客户端）
写流程

1）Client向HregionServer发送写请求；

2）HregionServer将数据写到HLog（write ahead log）。为了数据的持久化和恢复；

3）HregionServer将数据写到内存（MemStore）；

4）反馈Client写成功
Flush
①当超过RS全局MemStore大小达到RS堆内存的40%时，会触发RS全局的flush
②当内存中的数据存活时间达到1小时时会触发flush（RS级别）
③当region中MemStore数据达到阈值时（默认是128M、老版本是64M），将数据刷到硬盘，将内存中的数据删除，同时删除HLog中的历史数据，并将数据存储到HDFS中，在HLog中做标记点；
数据合并过程
①当数据块（StoreFile）达到4块，Hmaster触发合并操作，Region将数据块加载到本地，进行合并
②当合并的数据超过256M，进行拆分，将拆分后的Region分配给不同的HregionServer管理；
③当HregionServer宕机后，将HregionServer上的hlog拆分，然后分配给不同的HregionServer加载，修改.META.；
④注意：HLog会同步到HDFS（将做过标记的数据从磁盘中真正删除）；

相关推荐