Scrapy 简单学习

1:认识Scrapy目录结构

使用Scrapy 创立一个爬虫项目,会生成一个文件夹,文件夹内包含一个同名文件夹和一个scapy.cfg的文件
同名子文件夹为项目的核心代码 scrapy.cfg 主要为爬虫项目的配置文件
Scrapy 简单学习
同名子文件夹内放了spider文件夹以及_init_.py items.py middklewares.py pipelines.py settings.pyScrapy 简单学习
init.py : 为项目初始化文件,写项目的一些初始化信息
items.py :为项目的数据容器文件,主要用来定义我们要获取的数据
pipelines.py :文件为爬虫项目的管道文件,主要用来对items里面定义的一些数据进行进一步加工与处理
setting.py: 爬虫项目的设置文件,主要为爬虫项目的设置信息

2 :用Scrapy进行爬虫项目管理

1.1:用**“scrapy startproject 项目名”** 来创建一个项目
Scrapy 简单学习

  1. 2:用命令scrapy startproject -h 调出 startproject 的帮助信息
    Scrapy 简单学习
    我们可以对这些参数进行分析
    –logfile = FILE 参数主要用来指定日志文件,其中的FILE为指定的日志文件的路径地址
    创建日志 :scrapy startproject --logfile=“logf.log” mypjt1
    Scrapy 简单学习
    对应目录下生成的日志文件:
    Scrapy 简单学习
    我们已经成功将日志信息写入对应文件
    –loglevel = LEVEL ,参数主要来控制日志信息的等级,默认为DEBUG
    日志等级
    Scrapy 简单学习
    Scrapy 简单学习
    通过–nolog参数控制不输出日志信息
    Scrapy 简单学习
    1.3 常用工具命令
    1.3.1 :全局命令
    我们可有利用scrapy -h 进行查看
    Scrapy 简单学习
    1 fetch 命令 :主要用来显示爬虫爬取的过程
    Scrapy 简单学习
    Scrapy 简单学习
    我们可以调用 scrapy fetch -h 查看对参数的控制使用
    Scrapy 简单学习
    Scrapy 简单学习
    2 :runspider 命令
    我们可以实现不依托scrapy的爬虫项目,直接运行一个爬虫文件
    3:setting 命令
    通过Scrapy中的Setting 查看Scrapy对应的配置信息
    4:shell 命令
    5:startproject 命令
    6 :version 命令
    7:view 命令
    1.3.2 :项目命令
    (1)bench 命令 :测试本地硬件的性能
    (2)check 命令 :使用contract对爬虫进行测试
    (3)crawl 命令 : 启动某个爬虫
    (4) edit 命令:对爬虫文件进行编辑
    (5)genspider 命令: 快速创建爬虫文件的方式
    (6)list 命令 :列出爬虫文件
    (7)parse 命令:对指定URL网址,进行处理和分析
    Scrapy 简单学习