区域在批量负载迁移过程中分裂

问题描述:

在从RDBMS到Hbase的批量数据迁移过程中,区域分割是否有可能经常发生?如果它出现多次,那肯定会影响写入和读取性能。区域在批量负载迁移过程中分裂

我知道预分割可能会在某种程度上避免这个区域分裂。但是在我们的产品设计中,首先我们要在Hbase中单独编写新数据(可能需要6个月),一旦Hbase系统稳定地读取和写入新数据,就会开始将数据从RDBMS迁移到HBase的。在这个阶段,我怀疑区域拆分可能太频繁地发生,因为数据太大,会影响读写性能。

我们的行键将按用户顺序递增。对于不同的用户,它将以不同的方式开始

请提出一些解决方案,以在数据迁移过程中保持服务器的性能。

我是不预先拆分hbase的支持者。该产品的一个关键特性是自动分片。分裂是一个非常快速的操作,但它会让你走上压实的道路。我发现在hbase堆压缩行为很差。在Splice Machine(开源),我们将压缩转移到Spark上,我们看到对hbase中的操作的影响很小。