您的位置: 首页 > 文章 > scrapy框架下，爬取小说，解决章节乱序问题（小说封面+章节内容+简介）练手Demo

scrapy框架下，爬取小说，解决章节乱序问题（小说封面+章节内容+简介）练手Demo

分类: 文章 • 2024-01-11 22:05:40

首先，要感谢 @数学狂魔博客的启发，https://blog.****.net/qq_43391383/article/details/86930106,在他的博客中是采用把标题拆开，做成引导顺序的形式，然后进行同步IO，但我发现，这样的方法并不适用于每一种标题。如，第一章，第二章...这样的就不好拆了，于是我就想到自己加一个id的形式。思路类似于写数据表的时候，我们要给表添加一个自增的id，一个道理。

scrapy框架如何搭建，请自行百度，网上教程一大堆。废话不说，上代码。

第一步：在spiders里写下爬虫的业务代码（敲黑板，重点来了，解决乱序的）

这里设置一个自增id，为之后爬取每一章有一个自增的id，如 1：xxxx，2：xxxx，3：xxx .....

scrapy框架下，爬取小说，解决章节乱序问题（小说封面+章节内容+简介）练手Demo

scrapy框架下，爬取小说，解决章节乱序问题（小说封面+章节内容+简介）练手Demo

接下来，在解析内容里，把之前的开头id+：用正则表达式弄掉

scrapy框架下，爬取小说，解决章节乱序问题（小说封面+章节内容+简介）练手Demo

scrapy框架下，爬取小说，解决章节乱序问题（小说封面+章节内容+简介）练手Demo

最后，改写close，章节内容就是和网站上的顺序一样了（至于为什么要改写，咱也不知道，咱也没地方问）

scrapy框架下，爬取小说，解决章节乱序问题（小说封面+章节内容+简介）练手Demo

第四步，设置

scrapy框架下，爬取小说，解决章节乱序问题（小说封面+章节内容+简介）练手Demo

因为不需要异步，所以不需要开启管道

scrapy框架下，爬取小说，解决章节乱序问题（小说封面+章节内容+简介）练手Demo

scrapy框架下，爬取小说，解决章节乱序问题（小说封面+章节内容+简介）练手Demo

最后，添加一个启动，不用每次都输代码，烦

最后一个必须是爬虫逻辑名

scrapy框架下，爬取小说，解决章节乱序问题（小说封面+章节内容+简介）练手Demo

ps：小弟第一次写博客，写的不好的地方请指正，另外感谢https://blog.****.net/qq_43391383/article/details/86930106的启发，还有在工作中帮助我的人