数据倾斜解决方案之使用随机key实现双重聚合

使用随机key实现双重聚合

1、原理

2、使用场景
(1)groupByKey
(2)reduceByKey

比较适合使用这种方式;join,咱们通常不会这样来做,后面会讲三种,针对不同的join造成的数据倾斜的问题的解决方案。

第一轮聚合的时候,对key进行打散,将原先一样的key,变成不一样的key,相当于是将每个key分为多组;

先针对多个组,进行key的局部聚合;接着,再去除掉每个key的前缀,然后对所有的key,进行全局的聚合。

对groupByKey、reduceByKey造成的数据倾斜,有比较好的效果。

数据倾斜解决方案之使用随机key实现双重聚合

https://blog.csdn.net/u012957549/article/details/81412740