Scrapy 简单学习

1：认识Scrapy目录结构

使用Scrapy 创立一个爬虫项目，会生成一个文件夹，文件夹内包含一个同名文件夹和一个scapy.cfg的文件
同名子文件夹为项目的核心代码 scrapy.cfg 主要为爬虫项目的配置文件
Scrapy 简单学习
同名子文件夹内放了spider文件夹以及_init_.py items.py middklewares.py pipelines.py settings.py
init.py : 为项目初始化文件，写项目的一些初始化信息
items.py ：为项目的数据容器文件，主要用来定义我们要获取的数据
pipelines.py ：文件为爬虫项目的管道文件，主要用来对items里面定义的一些数据进行进一步加工与处理
setting.py: 爬虫项目的设置文件，主要为爬虫项目的设置信息

2 ：用Scrapy进行爬虫项目管理

1.1：用**“scrapy startproject 项目名”** 来创建一个项目
Scrapy 简单学习

2：用命令scrapy startproject -h 调出 startproject 的帮助信息

我们可以对这些参数进行分析
–logfile = FILE 参数主要用来指定日志文件，其中的FILE为指定的日志文件的路径地址
创建日志：scrapy startproject --logfile=“logf.log” mypjt1

对应目录下生成的日志文件：

我们已经成功将日志信息写入对应文件
–loglevel = LEVEL ,参数主要来控制日志信息的等级，默认为DEBUG
日志等级

通过–nolog参数控制不输出日志信息

1.3 常用工具命令
1.3.1 ：全局命令
我们可有利用scrapy -h 进行查看

1 fetch 命令：主要用来显示爬虫爬取的过程

我们可以调用 scrapy fetch -h 查看对参数的控制使用

2 ：runspider 命令
我们可以实现不依托scrapy的爬虫项目，直接运行一个爬虫文件
3：setting 命令
通过Scrapy中的Setting 查看Scrapy对应的配置信息
4：shell 命令
5：startproject 命令
6 ：version 命令
7：view 命令
1.3.2 ：项目命令
（1）bench 命令：测试本地硬件的性能
（2）check 命令：使用contract对爬虫进行测试
（3）crawl 命令：启动某个爬虫
（4) edit 命令：对爬虫文件进行编辑
（5）genspider 命令：快速创建爬虫文件的方式
（6）list 命令：列出爬虫文件
（7）parse 命令：对指定URL网址，进行处理和分析

1：认识Scrapy目录结构

2 ：用Scrapy进行爬虫项目管理

相关推荐