爬取智联招聘网站的手段(scrapy)
首先www.zhaopin.com是智联招聘网站的首页,进行搜索后,比如搜Java,点右键查看网页源代码可以看到,网页里面搜到的内容是异步加载的如图所示:
然后点击f12打开开发者工具,如图:
再点击刷新查看发送的异步请求,并进行分析:
可以看到发送了两个异步请求,发现第二个是个后端接口,直接拿到postman中进行测试 ,如图:
发现是标准的接口,直接调用接口即可爬取到网站的数据,也就避免了对网页进行分析,返回的是json数据 ,还有需要注意的地方是pageSize请求的是60但是返回的却是62:
然后查看网页中填充的数据条目是62条。其他的就比较简单了,直接根据url拼接发送请求,对每一个item进行解析即可,其中还需要进行url编码,更多的代码请访问github地址