Python爬虫西安七天天气预报
刚刚学习了正则表达式,所以准备试着写一个爬虫,作为练习~~
首先,在网页搜索西安七天天气预报,点开页面。我找到的网页如下图:
此时,我们按Fn+F12,获取爬虫需要的url
获取到相应的url后,便可以进行代码,先获取页面文本进行查看。
显然,获取信息失败,这是需要进行处理,这是由于该页面设置了反爬虫的原因。这时我们需要构造伪头部。
查找Host和User-Agent两项,修改代码。
这样,便可以读取到整页的前端代码,接下来我们就是用正则表达式进行文字的提取
最后,我们完善代码,将提取的数据加载到表格中,完整代码以及运行结果如下图:
嗯呢~~就是这样啦!