scrapy框架下,爬取小说,解决章节乱序问题(小说封面+章节内容+简介)练手Demo

首先,要感谢   @数学狂魔博客的启发,https://blog.****.net/qq_43391383/article/details/86930106,在他的博客中是采用把标题拆开,做成引导顺序的形式,然后进行同步IO,但我发现,这样的方法并不适用于每一种标题。如,第一章,第二章...这样的就不好拆了,于是我就想到自己加一个id的形式。思路类似于写数据表的时候,我们要给表添加一个自增的id,一个道理。

scrapy框架如何搭建,请自行百度,网上教程一大堆。废话不说,上代码。

第一步:在spiders里写下爬虫的业务代码(敲黑板,重点来了,解决乱序的)

这里设置一个自增id,为之后爬取每一章有一个自增的id,如  1:xxxx,2:xxxx,3:xxx     .....

scrapy框架下,爬取小说,解决章节乱序问题(小说封面+章节内容+简介)练手Demo

 

 

scrapy框架下,爬取小说,解决章节乱序问题(小说封面+章节内容+简介)练手Demo

 

接下来,在解析内容里,把之前的开头id+:  用正则表达式弄掉

scrapy框架下,爬取小说,解决章节乱序问题(小说封面+章节内容+简介)练手Demo

scrapy框架下,爬取小说,解决章节乱序问题(小说封面+章节内容+简介)练手Demo

 

最后,改写close,章节内容就是和网站上的顺序一样了(至于为什么要改写,咱也不知道,咱也没地方问)

scrapy框架下,爬取小说,解决章节乱序问题(小说封面+章节内容+简介)练手Demo

 

 

 

 

 

 

 

第四步,设置

scrapy框架下,爬取小说,解决章节乱序问题(小说封面+章节内容+简介)练手Demo

 

 

因为不需要异步,所以不需要开启管道

scrapy框架下,爬取小说,解决章节乱序问题(小说封面+章节内容+简介)练手Demo

scrapy框架下,爬取小说,解决章节乱序问题(小说封面+章节内容+简介)练手Demo

 

最后,添加一个启动,不用每次都输代码,烦

最后一个必须是爬虫逻辑名

scrapy框架下,爬取小说,解决章节乱序问题(小说封面+章节内容+简介)练手Demo

 

 

ps:小弟第一次写博客,写的不好的地方请指正,另外感谢https://blog.****.net/qq_43391383/article/details/86930106的启发,还有在工作中帮助我的人