python爬虫scrapy框架今天踩得坑([scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to 'jobs.5)
今天用爬虫框架爬取前程51python职位,一直爬取不出详情页,下一页url和详情页url都没问题,但就是没显示详情页内容,也没有报错,后来发现中间出现一个信息DEBUG: Filtered offsite request to 'jobs.51job.com'如下图:
后来发现是因为首页的域名和详情页的域名不一致导致的如下图:
首页域名:
详情页域名:
而我写的是首页域名,如图:
换成详情页域名后:
换了域名后就好了。。。。。。但是这样又不能翻页了,所以还要加上首页域名
这样就可以了,既能翻页又能爬取详情页