有关网络爬行技术的信息

问题描述：

我正在构建一个小型网络爬虫，我想知道是否有人对实际实现（只是爬行，没有搜索，没有排名，没有分类，只是爬行，吻:)有一些有趣的信息。有关网络爬行技术的信息

为了记录，我已经有O'Reilly“Spiderring hacks”和No Starch Press“Webbots，spiders和screen scrapers”。这些书很好，但是它们往往使事情变得简单，并没有详细说明缩放，存储数据，并行内容和其他更高级的主题。当然，我可以查看一个现有的开源爬虫的代码，但这将发生在另一边（C++爬虫似乎很复杂......）。我正在寻找一些有趣的/自信的信息。

任何帮助，欢迎提前致谢。

答

如果您对网络爬虫的实现细节感兴趣，可以研究现有的开源实现。以下是Open Source Crawlers in Java的列表。这些项目大部分都是不活动的。但互联网档案馆的抓取工具Heritix和Apache Nutch是成熟的活动项目，有很多可供借鉴的地方。

有关网络爬行技术的信息

相关推荐