四、HBase调优
一、优化策略:
导致HBase性能下降的因素:
Jvm内存分配与GC回收策略
与HBase运行机制相关的部分配置不合理
表结构设计及用户使用方式不合理
二、HBase概念:
1、HBase数据存储过程:
HBase写入时当MEMStore达到一定的大小会flush到磁盘保存成HFile,当HFile小文件太多会执行compact操作进行合并。
对HBase来说,每个Store仅包含一个HFile文件时,查询效率才是最大的。因为HFile文件太多的话,需要的寻址时间就会越长。因此HBase会通过合并已有的HFile,减少每次读取数据时的磁盘询道时间。合并的过程称为compact,但是当compact期间,可能会阻塞数据的写入和读取。
当Region的大小达到某一阈值,会执行split操作。对region进行分割,分配给不同的RegionServer管理。可能会导致当前Region不能读取、不能写入。
2、compact分两种:
minor compact:选取一些小的、相邻的StoreFile将它们合并成一个更大的StoreFile。
这里的StoreFile指的是HFile的一个封装,等同于HFile。minor compact的关键是如何去选择哪些文件需要合并?一次合并几个文件?
major compact:将所有的StoreFile合并成一个StoreFile,合并过程中清理无意义数据:被删除的数据、TTL过期数据、版本号超过设定版本号的数据。
注意:我们平时删除数据时,只是给数据加了一个标识,只有执行major compact时才会真正删除。
split:当一个region达到一定的大小就会自动split成两个region。
3、有三种情况会触发compact检查:
MeMStore被flush到磁盘;
用户执行shell命令compact、major_compact或者调用了相应的API;
HBase后台线程周期性触发检查;
三、HBase优化策略:
提高handler.count数量一定程度上提高HBase接收请求能力,不是越大越好;
max.filesize默认大小是10G,可以根据存储内容适当调整;
majorcompaction默认是一天,建议设置为0,禁止自动 major compact;
一般情况下,设置手动执行compact、split操作,减少对业务的影响。
创建HBase表的时候会自动创建一个Region分区。写数据时全部写入这个region,当region达到一定大小再进行split操作,将其分割成2个region,分配给不同的RegionServer。而region的split操作是非常耗时的,会造成region暂时无法访问的情况。所以我们创建表的时候预先创建一些空的region,并且规定好每个region存储的RowKey的范围。这样指定范围的数据会被写到指定的region里。减少很多的IO操作,通过预先分区,可以解决HBase中数据倾斜的问题。将经常访问的数据放到几个region中,不经常访问的数据放到一个region中。
为防止热点问题(分布式中,大量client集中访问一个或极少数节点,大量的节点处于空闲状态。),避免使用时序或者单调的递增递减等。设计RowKey时,一般加盐或者hash解决热点问题,RowKey唯一原则,且不宜过长。
默认同步提交,要么全部成功,要么抛出异常;若开启异步提交,可能丢失数据,不过能提高写的性能。
默认开启WAL机制,若业务允许,可以容忍一定数据丢失的风险,可以关闭WAL。
通常来讲,一次scan会获取大量数据,客户端发起请求时不会一次将数据都加载到本地,而是分成多次rpc请求加载;每次默认加载100条大小,若数据量比较大,我们可以将缓存设置的大一点,减少rpc请求次数。
服务端:BlockCache配置是否合理,HFile是否过多。
对于批量进行全表扫描可以禁用块缓存;对于经常访问某一行可以开启。