hf-simdex
分类:
文章
•
2025-03-12 12:50:51
hf-simdex:通过hash值找出重复的chunk
- 格式: ./hf-simdex [-i indexing_method] [-s hash] hash_files
- indexing_method的有效参数共两个:rbtree(默认)和list
- rbtree:给出hashfile中的file、chunk、byte总数及重复的chunk、byte数
- list:会输出处理过程,结果与rbtree相同,但速度与rbtree相比堪称龟速。
- -s参数:将指定hash值的block忽略:

上图可以看出chunks和bytes减少了