Python爬虫西安七天天气预报

刚刚学习了正则表达式,所以准备试着写一个爬虫,作为练习~~
首先,在网页搜索西安七天天气预报,点开页面。我找到的网页如下图:
Python爬虫西安七天天气预报
此时,我们按Fn+F12,获取爬虫需要的url
Python爬虫西安七天天气预报
获取到相应的url后,便可以进行代码,先获取页面文本进行查看。
Python爬虫西安七天天气预报
Python爬虫西安七天天气预报
显然,获取信息失败,这是需要进行处理,这是由于该页面设置了反爬虫的原因。这时我们需要构造伪头部。
Python爬虫西安七天天气预报
查找Host和User-Agent两项,修改代码。
Python爬虫西安七天天气预报
这样,便可以读取到整页的前端代码,接下来我们就是用正则表达式进行文字的提取
Python爬虫西安七天天气预报
最后,我们完善代码,将提取的数据加载到表格中,完整代码以及运行结果如下图:
Python爬虫西安七天天气预报
Python爬虫西安七天天气预报
嗯呢~~就是这样啦!