Scrapy 的安装及使用

1.使用 Anaconda 下载
conda install scrapy

2.使用scrapy 框架创建工程，或者是启动项目
scrapy startproject 工程名

工程目录，下图是在 pycharm 下的工程目录
Scrapy 的安装及使用
这里的douban是我自己的项目名
爬虫的代码都写在 spiders 目录下，spiders->testdouban.py是创建的其中一个爬虫的名称。
1)、spiders文件夹：爬虫文件主目录
2)、init.py：将改文件夹变为一个python模块
3)、items.py：定义所需要爬虫的项目
4)、middlewares.py：爬虫中间件
5)、pipelines.py：管道文件
6)、settings.py：设置文件

3.在spider 文件夹内编写爬虫文件
固定结构

from scrapy.spiders import CrawlSpider
from scrapy.selector import Selector
from 项目名.items import 项目名item

class 项目名(CrawlSpider):
    name = '文件名'
    # allow_domains = 'xxx' # 规定某域名

    # 必写： start_urls = 列表 ，放置url字符串
    start_urls = []

    # 必写，负责提取内容，提交item到管道
    def parse(self,response):
        # 实例化item对象
        item = 项目名Item()
    	# 可以使用正则、beautifulsoup、xpath来解析 
		# 准备 item，传入items 里面；将数据放到item内，用字典赋值的方式
		item['key'] = key
		# yield 提交
		yield item

到items.py 里面编写
如：name = scrapy.Field()

5.写存储，settings.py 里面添加存储的文件名和格式
如：

FEED_URI = '文件名.csv'
FEED_FORMAT = 'CSV'

6.运行代码，有两种方式
6.1 在命令行下运行，进入项目文件夹下，运行 scrapy crawl 爬虫文件名
6.2 在项目文件夹下新建一个文件 :
如：main.py，与spiders 文件夹同层级
固定结构：

from scrapy import cmdline
cmdline.execute('scrapy crawl 爬虫文件名'.split())

运行 main.py

Scrapy 的安装及使用

相关推荐