Python Request爬虫教学爬取

项目准备:

python3.7推荐,首先需要安装好request模块pip install request,

Python Request爬虫教学爬取

爬虫关键在于分析,首先要搞懂你要爬什么,怎么爬,在哪爬,需要通过分析网页的源代码来爬取数据,再通过正则表达式来提取你需要的值,理论东西到此为止。

现在我们来爬取51job的信息。

定义多个浏览器内核伪装,百度一大把

Python Request爬虫教学爬取

定义需要爬取的url的网页源码

Python Request爬虫教学爬取

对url的内容进行爬取,获取到网页源码转码后存在data

Python Request爬虫教学爬取

获取到数据后获取到的页面源码是

Python Request爬虫教学爬取

所以再需要爬取页码总数然后重复步骤爬取自己想要的内容即可:

Python Request爬虫教学爬取