安装使用Scrapy
Scrapy运行流程大概如下:
-
引擎从调度器中取出一个链接(URL)用于接下来的抓取
-
引擎把URL封装成一个请求(Request)传给下载器
-
下载器把资源下载下来,并封装成应答包(Response)
-
爬虫解析Response
-
解析出实体(Item),则交给实体管道进行进一步的处理
-
解析出的是链接(URL),则把URL交给调度器等待抓取
1、安装wheel
pip install wheel
2、安装lxml
https://pypi.python.org/pypi/lxml/4.1.0
3、安装pyopenssl
https://pypi.python.org/pypi/pyOpenSSL/17.5.0
4、安装Twisted
https://www.lfd.uci.edu/~gohlke/pythonlibs/
5、安装pywin32
https://sourceforge.net/projects/pywin32/files/
6、安装scrapy
pip install scrapy
-
scrapy.cfg 项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py文件中)
-
items.py 设置数据存储模板,用于结构化数据,如:Django的Model
-
pipelines 数据处理行为,如:一般结构化的数据持久化
-
settings.py 配置文件,如:递归的层数、并发数,延迟下载等
-
spiders 爬虫目录,如:创建文件,编写爬虫规则
1.创建一个工程:
scrapy startproject movie
查看scrapy startproject -h 这条命令的help
带有打印日志的项目创建:
scrapy startproject --logfile=DEBUG movie
scrapy startproject --nolog movie
2.创建爬虫程序
cd movie
scrapy genspider meiju meijutt.com
在spider中创建一个meiju.py的文件,网址为http://meijutt.com
meiju是文件名创建在spiders文件夹中,meijutt.com是需要爬的网站名