Scrapy框架入门

Scrapy框架介绍

Scrapy 是: 由 Python 语言开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。
Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。
Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。
Scrapy框架网址：https://scrapy.org/

Scrapy框架的运行原理：
Scrapy框架入门
Scrapy主要包括组件：
引擎(Scrapy Engine)：
用来处理整个系统的数据流处理, 触发事务(框架核心)Item 项目，它定义了爬取结果的数据结构，爬取的数据会赋值成改Item对象
调度器(Scheduler)：
用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回.
可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么,同时去除重复的网址
下载器(Downloader)：
用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)
爬虫(Spiders)：
爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提
取出链接,让Scrapy继续抓取下一个页面
项目管道(Pipeline)：
负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信
息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。
下载器中间件(Downloader Middlewares)：
位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引擎与下载器之间的请求及响应。
爬虫中间件(Spider Middlewares)：
介于Scrapy引擎和爬虫之间的框架，主要工作是处理蜘蛛的响应输入和请求输出。
调度中间件(Scheduler Middewares)：
介于Scrapy引擎和调度之间的中间件，从Scrapy引擎发送到调度的请求和响应。
Scrapy运行流程
Scrapy的整个数据处理流程有Scrapy引擎进行控制，其主要的运行方式为：

引擎打开一个域名时，蜘蛛处理这个域名，并让蜘蛛获取第一个爬取的URL。
引擎从蜘蛛那获取第一个需要爬取的URL，然后作为请求在调度中进行调度。
引擎从调度那获取接下来进行爬取的页面。
调度将下一个爬取的URL返回给引擎，引擎将它们通过下载中间件发送到下载器。
当网页被下载器下载完成以后，响应内容通过下载中间件被发送到引擎。
引擎收到下载器的响应并将它通过蜘蛛中间件发送到蜘蛛进行处理。
蜘蛛处理响应并返回爬取到的项目，然后给引擎发送新的请求。
引擎将抓取到的项目项目管道，并向调度发送请求。
系统重复第二部后面的操作，直到调度中没有请求，然后断开引擎与域之间的联系

Scrapy爬虫框架的具体使用步骤
Scrapy框架入门

Scrapy框架的使用

Scrapy框架的命令介绍
Scrapy 命令分为两种：全局命令和项目命令。
全局命令：在哪里都能使用。
项目命令：必须在爬虫项目里面才能使用。
全局命令
使用格式:
scrapy [options] [args]
可用的命令:
bench 测试本地硬件性能（工作原理：）：scrapy bench
commands
fetch 取URL使用Scrapy下载
genspider 产生新的蜘蛛使用预先定义的模板
runspider 运用单独一个爬虫文件：scrapy runspider abc.py
settings 获取设置值
shell 进入交互终端，用于爬虫的调试（如果你不调试，那么就不常用）：scrapy shell
http://www.baidu.com --nolog（–nolog 不显示日志信息）
startproject 创建一个爬虫项目，如：scrapy startproject demo（demo 创建的爬虫项目的名字）
version 查看版本：（scrapy version）
view 下载一个网页的源代码，并在默认的文本编辑器中打开这个源代码：scrapy view
http://www.aobossir.com/
[ more ] 从项目目录运行时可获得更多命令
使用 “scrapy -h” 要查看有关命令的更多信息
项目命令：
Usage:
scrapy [options] [args]
Available commands:
bench Run quick benchmark test
check Check spider contracts
commands
注意：Scrapy运行ImportError: No module named win32api错误。请安装：pip install pypiwin32
Scrapy框架的命令使用：
查看所有命令
查看帮助信息:
查看版本信息:
新建一个工程
构建爬虫genspider(generator spider)
一个工程中可以存在多个spider, 但是名字必须唯一
crawl 运行一个爬虫文件。：scrapy crawl f1 或者 scrapy crawl f1 --nolog
edit 使用编辑器打开爬虫文件（Windows上似乎有问题，Linux上没有问题）：scrapy edit f1
fetch Fetch a URL using the Scrapy downloader
genspider Generate new spider using pre-defined templates
list 列出当前爬虫项目下所有的爬虫文件： scrapy list
parse Parse URL (using its spider) and print the results
runspider Run a self-contained spider (without creating a project)
settings 获取设置值
shell 进入交互终端，用于爬虫的调试（如果你不调试，那么就不常用）
startproject 创建一个爬虫项目，如：scrapy startproject demo（demo 创建的爬虫项目的名字）
version 查看版本：（scrapy version）
view 下载一个网页的源代码，并在默认的文本编辑器中打开这个源代码
注意：Scrapy运行ImportError: No module named win32api错误。请安装：pip install pypiwin32
Scrapy框架的命令使用：
查看所有命令
scrapy -h
查看帮助信息
scrapy --help
新建一个工程
scrapy startproject spider_name
view使用浏览器打开网页
scrapy view http://www.baidu.com
shell命令, 进入scrpay交互环境
进入该url的交互环境
scrapy shell http://www.dmoz.org/Computers/Programming/Languages/Python/Books/
之后便进入交互环境，我们主要使用这里面的response命令, 例如可以使用
response.xpath() #括号里直接加xpath路径
runspider命令用于直接运行创建的爬虫, 并不会运行整个项目
scrapy runspider 爬虫名称

Scrapy框架介绍

Scrapy框架的使用

相关推荐