Scrapy框架爬虫学习--2

在之前的学习中已经试过了demo，今天看一下Scrapy的工程是怎样的。本节第一次正经八百的用Pycharm，暴露出了很多问题。

1. 建立工程

在想要建立工程的目录下打开终端，输入scrapy startproject zufang。

可以看一下工程的架构，

2. 打开工程

直接用Pycharm打开工程即可。

这里可能会涉及Pycharm的几个问题：interpreter配置，以及包的配置（参考他人博客中的解决方法），关于Scrapy包的安装比较麻烦，要先安装Twisted.whl文件，再安装scrapy。

这些都在pycharm 的terminal中运行就好了。需要什么就都在pycharm里面的Terminal安装就好了。

3. 新建爬虫.py脚本

在spiders文件夹下建立ganji.py 然后编写代码

Scrapy框架爬虫学习--2

inti.py --> 保持默认即可，这是初始化的文件。

items.py --> 自定义项目类的地方，也就是说爬虫获取到数据之后，传入到管道文件pipelines.py的载体

pipelines.py -->项目管道文件，对传入的项目类中的数据进行一个清理和入库

setting.py --> 设置。例如下载延迟、项目管文件中类的启动顺序以及自定义中间件的启动顺序

spiders目录 --> 里面只有一个inti.py文件，在该目录下定义爬虫类并继承 scrapy.Spider

middlewares.py --> 中间件配置

Scrapy框架爬虫学习--2

爬虫部分的代码就算简单写完了，这时候用Pycharm中的Terminal来运行这个爬虫

scrapy list可以看到这个工程下面所有的爬虫。可以看到，我们这里只有一个。

Scrapy框架爬虫学习--2

之后scrapy crawl zufang 运行这个爬虫即可。