处理大数据集

问题描述：

处理大数据集的最佳解决方案是什么？
我有txt文件分解成多个文件。这要是我加起来将是约100 GB 的文件无非只是处理大数据集

更

uniqID1 uniqID2 等

ID对，如果我想计算像 1东西：唯一的uniqIDs等数 2：uniqID1链接到的其他ID列表？

什么是最佳解决方案？如何将这些更新到数据库中？

谢谢！

对于任何建议你都没有真正描述你的问题。 http://tinyurl.com/so-hints – Oded 2011-02-22 22:09:24

答

所以，如果您有相关的下列的表：

  id1 varchar(10) // how long are you ids? are they numeric? text? 
      id2 varchar(10)

与表中的约五十亿行，和你想快速解答问题，例如：

 how many unique values in column id1 are there? 
     what is the set of distinct values from id1 where id2 = {some parameter}

关系数据库（支持SQL）和一个带有id1索引的表和id2上的另一个索引可以做你需要的。 SQLite将完成这项工作。

编辑：导入它们这将是最好的两个值与从不发生中的值，如逗号或管道字符或制表符，每行一个对某些字符分隔：

  foo|bar 
     moo|mar

编辑2：你不需要关系，但它不会伤害任何东西，并且如果数据库是关系数据，则你的数据结构更具可扩展性。