大数据(2)
案例3
有一个包含20亿个全是32位整数的大文件,在其中找到出现次数最多的数,但内存限制只有2G
解决思路
下再用哈希表依次处理各个文件,统计每种数出现的次数,此时肯定不会溢出。
案例4
先分析哈希表思路:
bitmap思路:
找到这个技术不足的区间,假设为a
再遍历一次40亿个数,此时只关注区间a上的数,并用bitmap统计区间a上的数的出现情况。
占用差不多8m空间
案例5
机器数n取决于面试官的给定
案例6
为解决上述问题,下介绍一致性哈希算法
哈希值环形,数据入环,顺时针寻找机器归属。
添加机器:
由此可见,添加机器3,只有右上角部分数据需要进行迁移,代价小了很多