做一个简单地爬虫

  1. 用requests模块爬取百度图片

首先要保证电脑内部有requests模块,安装方法,点开电脑运行输入cmd
做一个简单地爬虫
进入之后输入pip install requests就可以成功安装requests模块了
做一个简单地爬虫
然后进入pycharm 导入requests模块,既import requests
然后运用requests.get()向需要爬取的网站提出请求,我这里选择的是哈士奇的图片,复制粘贴他的网址
做一个简单地爬虫
同时定义一个url=这个网址然后在定义res=requests.get(url)
这样我们就向该网站发送了请求,此时用res.text就能得到该网页的源代码。
我们需要的是30张图片在源代码中的地址,所以在该网站用鼠标右击点检查进入以下页面
做一个简单地爬虫
其中没门要找的就是右边红色圈里的dataimgurl,复制里面的地址,进入源代码按CTRL+F搜索该地址
做一个简单地爬虫
搜索发现所有图片网址前面都有个thumbURL":",所有我们运用正则代码re.findall(‘thumbURL":"(.*?)"’,html)便可以将所有的源代码中的图片地址全部提取出来
做一个简单地爬虫
做一个简单地爬虫
但是仅仅得到网址是不行的,我们是要选取其中30张然后下载到电脑中,所以以下代码就是下载图片创造文件储存功能
for index,image in enumerate(images):
res = requests.get(image)
data=res.content
filename=str(index)+".jpg"
with open(filename,“wb”) as f:
f.write(data)
最终运行成功
做一个简单地爬虫