爬取智联招聘网站的手段(scrapy)

首先www.zhaopin.com是智联招聘网站的首页,进行搜索后,比如搜Java,点右键查看网页源代码可以看到,网页里面搜到的内容是异步加载的如图所示:

爬取智联招聘网站的手段(scrapy)

然后点击f12打开开发者工具,如图:

爬取智联招聘网站的手段(scrapy)

再点击刷新查看发送的异步请求,并进行分析:

爬取智联招聘网站的手段(scrapy)

可以看到发送了两个异步请求,发现第二个是个后端接口,直接拿到postman中进行测试 ,如图:

爬取智联招聘网站的手段(scrapy)

发现是标准的接口,直接调用接口即可爬取到网站的数据,也就避免了对网页进行分析,返回的是json数据 ,还有需要注意的地方是pageSize请求的是60但是返回的却是62:

爬取智联招聘网站的手段(scrapy)

爬取智联招聘网站的手段(scrapy)

然后查看网页中填充的数据条目是62条。其他的就比较简单了,直接根据url拼接发送请求,对每一个item进行解析即可,其中还需要进行url编码,更多的代码请访问github地址