如何将Scrapy与Mysql结合使用?

问题描述:

我试图创建一个网络爬虫,鉴于某些起始网址,提取所有元素,并跟随他们为了提取里面的文字和。 我运行Django应用程序,给定一个查询字符串,返回之前存储在MySQL数据库中的所有项目。 在我看来,最好的办法是使用Scrapy,给他一些起始网址中,他会通过简单地提取页面中所有的网址找到别人,然后,他会跟着他们获取这些网页的内容。如何将Scrapy与Mysql结合使用?

  1. 是否有可能把以前提取的数据到MySQL数据库 (bacause我没有找到关于这个的scrapy.org任何信息)?
  2. 有一个内置的功能来决定的“深度”扫描?

我只是读了所有的scrapy文档,可能有更好的方法来做到这一点,但在项目管道中,我刚刚在那里保存了数据。对于每个被处理的项目,检查它是否已经在你的mysql中,并保存它,如果它不是! http://doc.scrapy.org/en/latest/topics/item-pipeline.html

对于阅读了 “深度”:使用DepthMiddleware。您可以从request.meta['depth']之类的请求对象中读取它。

+2

我表达了如何读取深度信息。 – DrColossos 2012-04-11 11:40:44

+0

非常感谢 – Haldir87 2012-04-12 06:01:45