一个爬取表情包项目

一个爬取表情包项目
经常有小伙伴跟我说表情包不够用的情况，然后我就找了个表情包的网站，简单得分析了一下，写了个python脚本爬取了一下，下面来介绍一下吧：

首先是一个获取网页源代码的函数spider：
一个爬取表情包项目
函数需要的参数只有一个url地址，return网页的源代码

url = “https://www.fabiaoqing.com/biaoqing/lists/page/1”
该网站的图片分页是200，每进入下一页page后面的参数＋1，这时用网页检查功能查看任意一张图片的代码部分
一个爬取表情包项目
可以看到img标签的class为lazy，这是为了让图片在网页中显示的时候根据网速的不同，用懒加载的方式达到更快的响应速度，所以src后面的url不是我们要得到的图片地址，真实的url应该为data-original后面的

一个爬取表情包项目
为了达到图片类型分类的目的，写了2个正则匹配来匹配jpg图片和gif图片，当然也可以用第三行的代码来匹配任意格式的图片（如png，jpg，gif，tif等），要爬取的网页只有这两种格式，所以就用前两个就好了
这时我们设置url = “https://www.fabiaoqing.com/biaoqing/lists/page/{}.html”,用for循环的方式来遍历200页，这边我只下载了jpg的图片，如果有需要，可以用用相同的方式遍历gif_url来下载，不过为了防止网页访问频繁导致你的ip被封，可以用time.sleep()来设置每几页睡眠几秒，我这边每10页，休息了20秒

一个爬取表情包项目

一个爬取表情包项目

相关推荐