大数据(2)

案例3
有一个包含20亿个全是32位整数的大文件,在其中找到出现次数最多的数,但内存限制只有2G
大数据(2)
解决思路
大数据(2)
下再用哈希表依次处理各个文件,统计每种数出现的次数,此时肯定不会溢出。
大数据(2)

案例4
大数据(2)
先分析哈希表思路:
大数据(2)
bitmap思路:
大数据(2)
大数据(2)
找到这个技术不足的区间,假设为a
再遍历一次40亿个数,此时只关注区间a上的数,并用bitmap统计区间a上的数的出现情况。
占用差不多8m空间
大数据(2)

案例5
大数据(2)
大数据(2)
机器数n取决于面试官的给定
大数据(2)

案例6
大数据(2)
大数据(2)

为解决上述问题,下介绍一致性哈希算法
大数据(2)
哈希值环形,数据入环,顺时针寻找机器归属。
添加机器:
大数据(2)
大数据(2)
由此可见,添加机器3,只有右上角部分数据需要进行迁移,代价小了很多