Scrapy框架爬虫学习--2
在之前的学习中已经试过了demo,今天看一下Scrapy的工程是怎样的。本节第一次正经八百的用Pycharm,暴露出了很多问题。
1. 建立工程
在想要建立工程的目录下打开终端,输入scrapy startproject zufang。
可以看一下工程的架构,
2. 打开工程
直接用Pycharm打开工程即可。
这里可能会涉及Pycharm的几个问题:interpreter配置,以及包的配置(参考他人博客中的解决方法),关于Scrapy包的安装比较麻烦,要先安装Twisted.whl文件,再安装scrapy。
这些都在pycharm 的terminal中运行就好了。 需要什么就都在pycharm里面的Terminal安装就好了。
3. 新建爬虫.py脚本
在spiders文件夹下建立ganji.py 然后编写代码
inti.py --> 保持默认即可,这是初始化的文件。
items.py --> 自定义项目类的地方,也就是说爬虫获取到数据之后,传入到管道文件pipelines.py的载体
pipelines.py -->项目管道文件,对传入的项目类中的数据进行一个清理和入库
setting.py --> 设置。 例如下载延迟、项目管文件中类的启动顺序以及自定义中间件的启动顺序
spiders目录 --> 里面只有一个inti.py文件,在该目录下定义爬虫类并继承 scrapy.Spider
middlewares.py --> 中间件配置
爬虫部分的代码就算简单写完了,这时候用Pycharm中的Terminal来运行这个爬虫
scrapy list可以看到这个工程下面所有的爬虫。可以看到,我们这里只有一个。
之后scrapy crawl zufang 运行这个爬虫即可。