python的爬虫框架scrapy安装和简单使用

环境：windows下的

1.安装pyhon

地址：https://www.python.org/downloads/(python官网下载）

本人用的python2.7版本的，python安装好后，然后设置的它的环境变量，电脑-》属性》高级系统设置-》环境变量设置，找到PATH,

把python的路径如：C:\Python27加入里面，C:\Python27\Scripts也加入里面就可以直接在cmd.exe,调用easy_install或pip安装命令。

2.安装pywin32

地址：http://www.softpedia.com/get/Programming/Other-Programming-Files/PyWin32.shtml#download

3.安装scrapy

打开cmd.exe,使用easy_install或pip install scrapy,就可以了；其他依赖库会自动安装的，例如twisted, lxml

4.Scrapy的简单应用：

（1）创建一个scrapy项目：命令为scrapy startproject 项目名；

项目目录：

（2）文件说明：

settings.py：配置文件，如递归层数，并发数等

items.py : 结构化数据，数据模板（如：Django的model)

spiders :爬取网页数据的

pipelines.py: 对爬取的数据进行数据处理，简单来说就是用来保存数据；

scrapy.fg: 项目的配置信息

（3）代码实例：

settings.py

python的爬虫框架scrapy安装和简单使用

去掉注释

settings.py

python的爬虫框架scrapy安装和简单使用

spider.py

python的爬虫框架scrapy安装和简单使用

pipelines.py

python的爬虫框架scrapy安装和简单使用

创建main.py，运行：