处理大数据集

问题描述:

处理大数据集的最佳解决方案是什么?
我有txt文件分解成多个文件。 这要是我加起来将是约100 GB 的文件无非只是处理大数据集

uniqID1 uniqID2 等

ID对 ,如果我想计算像 1东西:唯一的uniqIDs等数 2:uniqID1链接到的其他ID列表?

什么是最佳解决方案? 如何将这些更新到数据库中?

谢谢!

+0

对于任何建议你都没有真正描述你的问题。 http://tinyurl.com/so-hints – Oded 2011-02-22 22:09:24

所以,如果您有相关的下列的表:

  id1 varchar(10) // how long are you ids? are they numeric? text? 
      id2 varchar(10) 

与表中的约五十亿行,和你想快速解答问题,例如:

 how many unique values in column id1 are there? 
     what is the set of distinct values from id1 where id2 = {some parameter} 

关系数据库(支持SQL)和一个带有id1索引的表和id2上的另一个索引可以做你需要的。 SQLite将完成这项工作。

编辑:导入它们这将是最好的两个值与从不发生中的值,如逗号或管道字符或制表符,每行一个对某些字符分隔:

  foo|bar 
     moo|mar 

编辑2:你不需要关系,但它不会伤害任何东西,并且如果数据库是关系数据,则你的数据结构更具可扩展性。