scrapy入门
在此以前我们学会了使用urllib来实现简单的爬虫文件爬取网络信息!但是这还远远不够的。
Scrapy是一个Python的爬虫框架,使用scrapy可以提高开发效率,并且非常适合做一些中大型的爬虫项目。提高稳定性。
scrapy安装
1、升级pip:python -m pip install --upgrade pip
2、安装wheel:pip install wheel
3、安装lxml:pip install lxml
4、安装twisted:pip install twisted
5、安装scrapy:pip install scrapy
检测是否安装成功可以通过输入scrapy命令查看,如果执行scrapy命令后有东西显示出来,则表示安装成功,如下图:
scrapy指令
bench:可以在项目里面,也可以在项目外面执行
fetch:直接下载某个网页
genspider:基于一个爬虫模板,创建一个爬虫文件
runspider:运行一个爬虫
setting:配置爬虫项目
shell:进入交互模式
startproject:创建爬虫项目
view:在浏览器中打开url网址
scrapy指令根据作用范围大小分为:
1、全局指令:无须在项目目录下才能执行的指令
2、项目指令:必须在项目目录下才能执行的指令
如项目地址以外执行:scrapy
项目地址里面执行scrapy:
scrapy实现项目
1、创建爬虫项目
创建项目成功后,在相应的目录会生成一个文件夹
把需要爬取的目标属性全部在items.py中定义好。
2、创建爬虫文件
其实上一步人家也提醒你了,按照这样的方式来创建爬虫文件,提示为黄色标记部分。
格式:scrapy genspider {文件名} {爬取目标地址}
如上表示创建一个名为testspider的爬虫文件,用于爬取baidu.com地址的数据。执行成功后会生成相应的文件
文件修改顺序
实战爬取百度信息:
1、首先用pycharm打开这个项目,编写items.py
2、编辑spider文件