四、HBase调优

一、优化策略:

导致HBase性能下降的因素:

Jvm内存分配与GC回收策略

与HBase运行机制相关的部分配置不合理

表结构设计及用户使用方式不合理

 

二、HBase概念:

1、HBase数据存储过程:

HBase写入时当MEMStore达到一定的大小会flush到磁盘保存成HFile,当HFile小文件太多会执行compact操作进行合并。

对HBase来说,每个Store仅包含一个HFile文件时,查询效率才是最大的。因为HFile文件太多的话,需要的寻址时间就会越长。因此HBase会通过合并已有的HFile,减少每次读取数据时的磁盘询道时间。合并的过程称为compact,但是当compact期间,可能会阻塞数据的写入和读取。

当Region的大小达到某一阈值,会执行split操作。对region进行分割,分配给不同的RegionServer管理。可能会导致当前Region不能读取、不能写入。

2、compact分两种:

minor compact:选取一些小的、相邻的StoreFile将它们合并成一个更大的StoreFile。

这里的StoreFile指的是HFile的一个封装,等同于HFile。minor compact的关键是如何去选择哪些文件需要合并?一次合并几个文件?

major compact:将所有的StoreFile合并成一个StoreFile,合并过程中清理无意义数据:被删除的数据、TTL过期数据、版本号超过设定版本号的数据。

注意:我们平时删除数据时,只是给数据加了一个标识,只有执行major compact时才会真正删除。

split:当一个region达到一定的大小就会自动split成两个region。

3、有三种情况会触发compact检查:

MeMStore被flush到磁盘;

用户执行shell命令compact、major_compact或者调用了相应的API;

HBase后台线程周期性触发检查;

 

三、HBase优化策略:

1、服务端优化策略:

JVm设置与GC设置:

适当增加RegionServer内存

hbase-site.xml部分属性配置:

四、HBase调优

提高handler.count数量一定程度上提高HBase接收请求能力,不是越大越好;

max.filesize默认大小是10G,可以根据存储内容适当调整;

majorcompaction默认是一天,建议设置为0,禁止自动 major compact;

compaction.min默认值是3;

四、HBase调优

blockingStoreFiles设置大一点;

一般情况下,设置手动执行compact、split操作,减少对业务的影响。

2、常用优化策略(以实际需求为主)

1)预先分区

创建HBase表的时候会自动创建一个Region分区。写数据时全部写入这个region,当region达到一定大小再进行split操作,将其分割成2个region,分配给不同的RegionServer。而region的split操作是非常耗时的,会造成region暂时无法访问的情况。所以我们创建表的时候预先创建一些空的region,并且规定好每个region存储的RowKey的范围。这样指定范围的数据会被写到指定的region里。减少很多的IO操作,通过预先分区,可以解决HBase中数据倾斜的问题。将经常访问的数据放到几个region中,不经常访问的数据放到一个region中。

2)RowKey优化

利用HBase默认排序的特点,将一起访问的数据放到一起。

为防止热点问题(分布式中,大量client集中访问一个或极少数节点,大量的节点处于空闲状态。),避免使用时序或者单调的递增递减等。设计RowKey时,一般加盐或者hash解决热点问题,RowKey唯一原则,且不宜过长。

3)Column优化

列族的名称列的描述命名尽量简短;

建议同一张表中ColumnFamily的数量不要超过3个;

4)Schema优化

宽表:一种“列多行少”的设计

高表:一种“列少行多”的设计

就查询性能来讲,高表更好;

对于元数据的开销,高表的开销更大;

宽表的事务性更好;

我们要根据业务需求,达到平衡的状态,效率最高。

3、HBase读写性能优化

HBase写优化策略:

同步批量提交 or 异步批量提交

默认同步提交,要么全部成功,要么抛出异常;若开启异步提交,可能丢失数据,不过能提高写的性能。

WAL优化,是否必须,持久化等级。

默认开启WAL机制,若业务允许,可以容忍一定数据丢失的风险,可以关闭WAL。

HBase读优化策略:

客户端:Scan缓存设置,批量获取

通常来讲,一次scan会获取大量数据,客户端发起请求时不会一次将数据都加载到本地,而是分成多次rpc请求加载;每次默认加载100条大小,若数据量比较大,我们可以将缓存设置的大一点,减少rpc请求次数。

服务端:BlockCache配置是否合理,HFile是否过多。

对于批量进行全表扫描可以禁用块缓存;对于经常访问某一行可以开启。