如何将Scrapy与Mysql结合使用?
问题描述:
我试图创建一个网络爬虫,鉴于某些起始网址,提取所有元素,并跟随他们为了提取里面的文字和。 我运行Django应用程序,给定一个查询字符串,返回之前存储在MySQL数据库中的所有项目。 在我看来,最好的办法是使用Scrapy,给他一些起始网址中,他会通过简单地提取页面中所有的网址找到别人,然后,他会跟着他们获取这些网页的内容。如何将Scrapy与Mysql结合使用?
- 是否有可能把以前提取的数据到MySQL数据库 (bacause我没有找到关于这个的scrapy.org任何信息)?
- 有一个内置的功能来决定的“深度”扫描?
答
我只是读了所有的scrapy文档,可能有更好的方法来做到这一点,但在项目管道中,我刚刚在那里保存了数据。对于每个被处理的项目,检查它是否已经在你的mysql中,并保存它,如果它不是! http://doc.scrapy.org/en/latest/topics/item-pipeline.html
对于阅读了 “深度”:使用DepthMiddleware。您可以从request.meta['depth']
之类的请求对象中读取它。
我表达了如何读取深度信息。 – DrColossos 2012-04-11 11:40:44
非常感谢 – Haldir87 2012-04-12 06:01:45