爬取拉钩网所有python职位信息
爬取所有关键字时python的职位信息并保存为csv格式
项目在github下载地址:
lagou-crawl-download
说明:
1.关键字可以是任意的在相应函数中修改就可以
2.由于反爬虫需要添加middleware中间件,来添加随机请求头和代理
3.由于使用selenium不添加代理只能爬取十几页的信息,想要爬取所有的应该是三十页左右
4.你也可以通过参数来自定义起始页和第几个位置开始下载主要是为了防止由于网速等外界因素导致爬虫只能下载一部分,下次可以从上次结束的位置下载
5.具体信息说明如下:
职位详情页这里将它们分解为:
- 公司名称
- 公司主要应用领域
- 公司目前发展阶段
- 公司网址
- 公司规模
- 工作薪水
- 工作具体描述
- 工作具体名称
- 工作福利
10.工作地点
11.工作简要描述