四、HBase调优

一、优化策略：

导致HBase性能下降的因素：

Jvm内存分配与GC回收策略

与HBase运行机制相关的部分配置不合理

表结构设计及用户使用方式不合理

二、HBase概念：

1、HBase数据存储过程：

HBase写入时当MEMStore达到一定的大小会flush到磁盘保存成HFile，当HFile小文件太多会执行compact操作进行合并。

对HBase来说，每个Store仅包含一个HFile文件时，查询效率才是最大的。因为HFile文件太多的话，需要的寻址时间就会越长。因此HBase会通过合并已有的HFile，减少每次读取数据时的磁盘询道时间。合并的过程称为compact，但是当compact期间，可能会阻塞数据的写入和读取。

当Region的大小达到某一阈值，会执行split操作。对region进行分割，分配给不同的RegionServer管理。可能会导致当前Region不能读取、不能写入。

2、compact分两种：

minor compact：选取一些小的、相邻的StoreFile将它们合并成一个更大的StoreFile。

这里的StoreFile指的是HFile的一个封装，等同于HFile。minor compact的关键是如何去选择哪些文件需要合并？一次合并几个文件？

major compact：将所有的StoreFile合并成一个StoreFile，合并过程中清理无意义数据：被删除的数据、TTL过期数据、版本号超过设定版本号的数据。

注意：我们平时删除数据时，只是给数据加了一个标识，只有执行major compact时才会真正删除。

split：当一个region达到一定的大小就会自动split成两个region。

3、有三种情况会触发compact检查：

MeMStore被flush到磁盘；

用户执行shell命令compact、major_compact或者调用了相应的API；

HBase后台线程周期性触发检查；

三、HBase优化策略：

1、服务端优化策略：

JVm设置与GC设置：

适当增加RegionServer内存

hbase-site.xml部分属性配置：

四、HBase调优

提高handler.count数量一定程度上提高HBase接收请求能力，不是越大越好;

max.filesize默认大小是10G，可以根据存储内容适当调整;

majorcompaction默认是一天，建议设置为0，禁止自动 major compact;

compaction.min默认值是3；

四、HBase调优

blockingStoreFiles设置大一点；

一般情况下，设置手动执行compact、split操作，减少对业务的影响。

2、常用优化策略（以实际需求为主）

1）预先分区

创建HBase表的时候会自动创建一个Region分区。写数据时全部写入这个region，当region达到一定大小再进行split操作，将其分割成2个region，分配给不同的RegionServer。而region的split操作是非常耗时的，会造成region暂时无法访问的情况。所以我们创建表的时候预先创建一些空的region，并且规定好每个region存储的RowKey的范围。这样指定范围的数据会被写到指定的region里。减少很多的IO操作，通过预先分区，可以解决HBase中数据倾斜的问题。将经常访问的数据放到几个region中，不经常访问的数据放到一个region中。

2）RowKey优化

利用HBase默认排序的特点，将一起访问的数据放到一起。

为防止热点问题（分布式中，大量client集中访问一个或极少数节点，大量的节点处于空闲状态。），避免使用时序或者单调的递增递减等。设计RowKey时，一般加盐或者hash解决热点问题，RowKey唯一原则，且不宜过长。

3）Column优化

列族的名称和列的描述命名尽量简短；

建议同一张表中ColumnFamily的数量不要超过3个；

4）Schema优化

宽表：一种“列多行少”的设计

高表：一种“列少行多”的设计

就查询性能来讲，高表更好；

对于元数据的开销，高表的开销更大；

宽表的事务性更好；

我们要根据业务需求，达到平衡的状态，效率最高。

3、HBase读写性能优化

HBase写优化策略：

同步批量提交 or 异步批量提交

默认同步提交，要么全部成功，要么抛出异常；若开启异步提交，可能丢失数据，不过能提高写的性能。

WAL优化，是否必须，持久化等级。

默认开启WAL机制，若业务允许，可以容忍一定数据丢失的风险，可以关闭WAL。

HBase读优化策略：

客户端：Scan缓存设置，批量获取

通常来讲，一次scan会获取大量数据，客户端发起请求时不会一次将数据都加载到本地，而是分成多次rpc请求加载；每次默认加载100条大小，若数据量比较大，我们可以将缓存设置的大一点，减少rpc请求次数。

服务端：BlockCache配置是否合理，HFile是否过多。

对于批量进行全表扫描可以禁用块缓存；对于经常访问某一行可以开启。

相关推荐