有关网络爬行技术的信息

有关网络爬行技术的信息

问题描述:

我正在构建一个小型网络爬虫,我想知道是否有人对实际实现(只是爬行,没有搜索,没有排名,没有分类,只是爬行,吻:)有一些有趣的信息。有关网络爬行技术的信息

为了记录,我已经有O'Reilly“Spiderring hacks”和No Starch Press“Webbots,spiders和screen scrapers”。这些书很好,但是它们往往使事情变得简单,并没有详细说明缩放,存储数据,并行内容和其他更高级的主题。当然,我可以查看一个现有的开源爬虫的代码,但这将发生在另一边(C++爬虫似乎很复杂......)。我正在寻找一些有趣的/自信的信息。

任何帮助,欢迎提前致谢。

如果您对网络爬虫的实现细节感兴趣,可以研究现有的开源实现。以下是Open Source Crawlers in Java的列表。这些项目大部分都是不活动的。但互联网档案馆的抓取工具Heritix和Apache Nutch是成熟的活动项目,有很多可供借鉴的地方。