处理维基百科转储文件
答
维基百科转储文件是XML格式。因此,您可以使用任何可用的XML工具来实现此目的。
请注意,由于转储文件的大小,SAX解析器通常比DOM解析器效率更高(因为DOM解析器会尝试将整个东西加载到内存表示中)。
答
看看http://code.google.com/p/jwpl/ 它的一个Java API,让你的结构化访问维基百科转储,你需要一个数据库(MySQL或类似),以及最近的维基百科转储大量的RAM,至少4G技术虽然处理。
但它很好用: 你可以得到一个遍历所有页面或页面标题的迭代器和更容易使用的东西。
也是使用SAX。 – ingyhere 2012-02-15 20:21:59