爬虫实例

scrapy是python最有名的爬虫框架之一,可以很方便的进行web抓取,并且提供了很强的定制型,这里记录简单学习的过程和在实际应用中会遇到的一些常见问题

一、安装

在安装scrapy之前有一些依赖需要安装,否则可能会安装失败,scrapy的选择器依赖于lxml,还有Twisted网络引擎,还需要配置python的环境变量 以及python的script的变量
以下是windows安装:

Scrapy的安装:
1.scrapy需要安装第三方库文件,lxml和Twisted开头的文件
2.下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/
3.下载好文件之后,在DOS命令下pip install 文件的位置(lxlm)Twisted
4.安装完成就可以安装:pip install scrapy
5. 还需要安装 win32(启动蜘蛛的时候会提示安装,根据python版本来的 我32位)pip install pypiwin32

二、基本使用

  1. 初始化scrapy项目
    我们可以使用命令行初始化一个项目,(注意创建的路径就是你在命令行下的根目录)
    创建一个kgc项目 通过命令scrapy startproject
    爬虫实例
    爬虫实例

代码实现:
1.先定义一个蜘蛛类,有名称 URL 属性
2.定义解析函数 通过resoponse.xpath()来解析元素
以lianjia为例
爬虫实例

3、需要在item里把属性值scrapy.Field()
爬虫实例

4、在把字段封装到item
爬虫实例

6.设置管道 并启用

7.把爬去的数据通过管道存储到CSV文件中
爬虫实例

8.设置继续爬取下一页

爬虫实例