处理大数据集
问题描述:
处理大数据集的最佳解决方案是什么?
我有txt文件分解成多个文件。 这要是我加起来将是约100 GB 的文件无非只是处理大数据集
uniqID1 uniqID2 等
ID对 ,如果我想计算像 1东西:唯一的uniqIDs等数 2:uniqID1链接到的其他ID列表?
什么是最佳解决方案? 如何将这些更新到数据库中?
谢谢!
答
所以,如果您有相关的下列的表:
id1 varchar(10) // how long are you ids? are they numeric? text?
id2 varchar(10)
与表中的约五十亿行,和你想快速解答问题,例如:
how many unique values in column id1 are there?
what is the set of distinct values from id1 where id2 = {some parameter}
关系数据库(支持SQL)和一个带有id1索引的表和id2上的另一个索引可以做你需要的。 SQLite将完成这项工作。
编辑:导入它们这将是最好的两个值与从不发生中的值,如逗号或管道字符或制表符,每行一个对某些字符分隔:
foo|bar
moo|mar
编辑2:你不需要关系,但它不会伤害任何东西,并且如果数据库是关系数据,则你的数据结构更具可扩展性。
对于任何建议你都没有真正描述你的问题。 http://tinyurl.com/so-hints – Oded 2011-02-22 22:09:24