在Scrapy中爬行多个级别

在Scrapy中爬行多个级别

问题描述:

我是scrapy的新手,在花费超人的时间浏览文档和试验和错误之前,我想我会询问专家是否有可能寻找我想要的东西。在Scrapy中爬行多个级别

  1. 导航到应用程序URL
  2. 从网站上的所有环节,过滤环节的一个子集。这些链接 3.1对于每一个环节,刮去并提取和存储一些信息 3.2中有这种反应,我想跟进 3.3刮应对这个链接,并记录在案,以及特定链路的
  3. 访问。

为了达到这个目的,所有这些都可以在一个蜘蛛中完成,或者我必须过滤来自步骤2的链接并为步骤3调用第二个蜘蛛吗?

+0

我不认为你需要_“通过文档寻找超人类时间”_。您可能需要从['CrawlSpider'](http://doc.scrapy.org/en/latest/topics/spiders.html#crawlspider)开始,该链接用于跟踪链接,您也可以进行过滤。文档中的示例还会在回调中提取数据。这是你学习的好开始(我们不能为你做研究) –

+0

谢谢。我能够通过文档并通过抓取蜘蛛来实现这一点。现在我的下一步是使用scrapy登录我正在刮的网站。我正尝试登录到amazon.com。但robots.txt提到www.amazon.com/ap/signin是不允许的。我已经设置了scrapy来遵守robots.txt请求,正如我应该的。是否有替代方案来实现认证会话? –

更新:所以这是绝对有可能使用scrapy。至少多级抓取是。我还没有足够的知道我是否可以在爬网中存储和链接不同级别的项目,以便我可以在一个地方获得信息。但从我迄今为止看到的scrapy的灵活性来判断,这很可能是可能的。