一个爬取表情包项目
一个爬取表情包项目
经常有小伙伴跟我说表情包不够用的情况,然后我就找了个表情包的网站,简单得分析了一下,写了个python脚本爬取了一下,下面来介绍一下吧:
首先是一个获取网页源代码的函数spider:
函数需要的参数只有一个url地址,return网页的源代码
url = “https://www.fabiaoqing.com/biaoqing/lists/page/1”
该网站的图片分页是200,每进入下一页page后面的参数+1,这时用网页检查功能查看任意一张图片的代码部分
可以看到img标签的class为lazy,这是为了让图片在网页中显示的时候根据网速的不同,用懒加载的方式达到更快的响应速度,所以src后面的url不是我们要得到的图片地址,真实的url应该为data-original后面的
为了达到图片类型分类的目的,写了2个正则匹配来匹配jpg图片和gif图片,当然也可以用第三行的代码来匹配任意格式的图片(如png,jpg,gif,tif等),要爬取的网页只有这两种格式,所以就用前两个就好了
这时我们设置url = “https://www.fabiaoqing.com/biaoqing/lists/page/{}.html”,用for循环的方式来遍历200页,这边我只下载了jpg的图片,如果有需要,可以用用相同的方式遍历gif_url来下载,不过为了防止网页访问频繁导致你的ip被封,可以用time.sleep()来设置每几页睡眠几秒,我这边每10页,休息了20秒