scrapy入门

在此以前我们学会了使用urllib来实现简单的爬虫文件爬取网络信息！但是这还远远不够的。

Scrapy是一个Python的爬虫框架，使用scrapy可以提高开发效率，并且非常适合做一些中大型的爬虫项目。提高稳定性。

scrapy安装

1、升级pip：python -m pip install --upgrade pip

2、安装wheel：pip install wheel

3、安装lxml：pip install lxml

4、安装twisted：pip install twisted

5、安装scrapy：pip install scrapy

scrapy入门

检测是否安装成功可以通过输入scrapy命令查看，如果执行scrapy命令后有东西显示出来，则表示安装成功，如下图：

scrapy入门

scrapy指令

bench：可以在项目里面，也可以在项目外面执行

fetch：直接下载某个网页

genspider：基于一个爬虫模板，创建一个爬虫文件

runspider：运行一个爬虫

setting：配置爬虫项目

shell：进入交互模式

startproject：创建爬虫项目

view：在浏览器中打开url网址

scrapy指令根据作用范围大小分为：

1、全局指令：无须在项目目录下才能执行的指令

2、项目指令：必须在项目目录下才能执行的指令

如项目地址以外执行：scrapy

scrapy入门

项目地址里面执行scrapy：

scrapy入门

scrapy实现项目

1、创建爬虫项目

scrapy入门

创建项目成功后，在相应的目录会生成一个文件夹

scrapy入门

把需要爬取的目标属性全部在items.py中定义好。

2、创建爬虫文件

其实上一步人家也提醒你了，按照这样的方式来创建爬虫文件，提示为黄色标记部分。

scrapy入门

格式：scrapy genspider {文件名} {爬取目标地址}

如上表示创建一个名为testspider的爬虫文件，用于爬取baidu.com地址的数据。执行成功后会生成相应的文件

scrapy入门

文件修改顺序

scrapy入门

实战爬取百度信息：

1、首先用pycharm打开这个项目，编写items.py

scrapy入门

2、编辑spider文件

scrapy安装

scrapy指令

scrapy实现项目

相关推荐