hf-simdex

hf-simdex:通过hash值找出重复的chunk

  • 格式: ./hf-simdex [-i indexing_method] [-s hash] hash_files
  • indexing_method的有效参数共两个:rbtree(默认)和list
    1. rbtree:给出hashfile中的file、chunk、byte总数及重复的chunk、byte数
      hf-simdex
    2. list:会输出处理过程,结果与rbtree相同,但速度与rbtree相比堪称龟速。
      hf-simdex
  • -s参数:将指定hash值的block忽略:hf-simdex
    上图可以看出chunks和bytes减少了