如何将Scrapy与Mysql结合使用？

问题描述：

我试图创建一个网络爬虫，鉴于某些起始网址，提取所有元素，并跟随他们为了提取里面的文字和。我运行Django应用程序，给定一个查询字符串，返回之前存储在MySQL数据库中的所有项目。在我看来，最好的办法是使用Scrapy，给他一些起始网址中，他会通过简单地提取页面中所有的网址找到别人，然后，他会跟着他们获取这些网页的内容。如何将Scrapy与Mysql结合使用？

是否有可能把以前提取的数据到MySQL数据库（bacause我没有找到关于这个的scrapy.org任何信息）？
有一个内置的功能来决定的“深度”扫描？

答

我只是读了所有的scrapy文档，可能有更好的方法来做到这一点，但在项目管道中，我刚刚在那里保存了数据。对于每个被处理的项目，检查它是否已经在你的mysql中，并保存它，如果它不是！ http://doc.scrapy.org/en/latest/topics/item-pipeline.html

对于阅读了 “深度”：使用DepthMiddleware。您可以从request.meta['depth']之类的请求对象中读取它。

我表达了如何读取深度信息。 – DrColossos 2012-04-11 11:40:44

非常感谢 – Haldir87 2012-04-12 06:01:45

如何将Scrapy与Mysql结合使用？

相关推荐