python的爬虫框架scrapy安装和简单使用

环境:windows下的

1.安装pyhon

地址:https://www.python.org/downloads/(python官网下载)

本人用的python2.7版本的,python安装好后,然后设置的它的环境变量,电脑-》属性》高级系统设置-》环境变量设置,找到PATH,

把python的路径如:C:\Python27加入里面,C:\Python27\Scripts也加入里面就可以直接在cmd.exe,调用easy_install或pip安装命令。


2.安装pywin32

地址:http://www.softpedia.com/get/Programming/Other-Programming-Files/PyWin32.shtml#download


3.安装scrapy

打开cmd.exe,使用easy_install或pip install scrapy,就可以了;其他依赖库会自动安装的,例如twisted, lxml


4.Scrapy的简单应用:

(1)创建一个scrapy项目:命令为scrapy startproject 项目名;

   项目目录:

python的爬虫框架scrapy安装和简单使用

(2)文件说明:

      settings.py:配置文件,如递归层数,并发数等

      items.py   :  结构化数据,数据模板(如:Django的model)

      spiders    :爬取网页数据的

      pipelines.py: 对爬取的数据进行数据处理,简单来说就是用来保存数据;

      scrapy.fg:  项目的配置信息


(3)代码实例:

settings.py

 python的爬虫框架scrapy安装和简单使用

python的爬虫框架scrapy安装和简单使用

去掉注释

settings.py

python的爬虫框架scrapy安装和简单使用


spider.py

python的爬虫框架scrapy安装和简单使用



pipelines.py


python的爬虫框架scrapy安装和简单使用


创建main.py,运行:

python的爬虫框架scrapy安装和简单使用