python的爬虫框架scrapy安装和简单使用
环境:windows下的
1.安装pyhon
地址:https://www.python.org/downloads/(python官网下载)
本人用的python2.7版本的,python安装好后,然后设置的它的环境变量,电脑-》属性》高级系统设置-》环境变量设置,找到PATH,
把python的路径如:C:\Python27加入里面,C:\Python27\Scripts也加入里面就可以直接在cmd.exe,调用easy_install或pip安装命令。
2.安装pywin32
地址:http://www.softpedia.com/get/Programming/Other-Programming-Files/PyWin32.shtml#download
3.安装scrapy
打开cmd.exe,使用easy_install或pip install scrapy,就可以了;其他依赖库会自动安装的,例如twisted, lxml
4.Scrapy的简单应用:
(1)创建一个scrapy项目:命令为scrapy startproject 项目名;
项目目录:
(2)文件说明:
settings.py:配置文件,如递归层数,并发数等
items.py : 结构化数据,数据模板(如:Django的model)
spiders :爬取网页数据的
pipelines.py: 对爬取的数据进行数据处理,简单来说就是用来保存数据;
scrapy.fg: 项目的配置信息
(3)代码实例:
settings.py
去掉注释
settings.py
spider.py
pipelines.py
创建main.py,运行: