Pyppeteer: 比selenium更高效的爬虫界的新神器
来源:十点数据
当今大数据的时代,网络爬虫已经成为了获取数据的一个重要手段。
随着互联网的发展,前端技术也在不断变化,数据的加载方式也不再是单纯的服务端渲染了。现在你可以看到很多网站的数据可能都是通过接口的形式传输的,或者即使不是接口那也是一些 JSON 的数据,然后经过 JavaScript 渲染得出来的。
这时,如果你还用 requests 来爬取内容,那就不管用了。因为 requests 爬取下来的只能是服务器端网页的源码,这和浏览器渲染以后的页面内容是不一样的。因为,真正的数据是经过 JavaScript 执行后,渲染出来的,数据来源可能是 Ajax,也可能是页面里的某些 Data,或者是一些 ifame 页面等。不过,大多数情况下极有可能是 Ajax 接口获取的。
所以,很多情况我们需要分析 Ajax请求,分析这些接口的调用方式,通过抓包工具或者浏览器的“开发者工具”,找到数据的请求链接,然后再用程序来模拟。但是,抓包分析流的方式,也存在一定的缺点。
一是:因为有些接口带着加密参数,比如 token、sign 等等,模拟难度较大;
二是:抓包的方式只适合量小的情况。如果有一百、一千个,甚至五千、一万个网站要处理时,该如何处理?还一个一个分析数据流?一个一个去抓包吗?
基于以上的两个严重的缺点,那有没有一种简单粗暴的方法,既不需要分析数据流,不需要抓包,又适合大批量的网站采集呢?这时 Puppeteer、Pyppeteer、Selenium、Splash 等自动化框架出现了。使用这些框架获取HTML源码,这样我们爬取到的源代码就是JavaScript 渲染以后的真正的网页代码,数据自然就好提取了。同时,也就绕过分析 Ajax 和一些 JavaScript 逻辑的过程。这种方式就做到了可见即可爬,难度也不大,同时适合大批量的采集。由于是模拟浏览器,一些法律方面的问题可以绕过。毕竟,爬虫有风险啊! 哈哈....
Selenium,作为一款知名的Web自动化测试框架,支持大部分主流浏览器,提供了功能丰富的API接口,常常被我们用作爬虫工具来使用。然而selenium的缺点也很明显,比如速度太慢、对版本配置要求严苛,最麻烦是经常要更新对应的驱动。
由于Selenium流行已久,现在稍微有点反爬的网站都会对selenium和webdriver进行识别,网站只需要在前端js添加一下判断脚本,很容易就可以判断出是真人访问还是webdriver。虽然也可以通过中间代理的方式进行js注入屏蔽webdriver检测,但是webdriver对浏览器的模拟操作(输入、点击等等)都会留下webdriver的标记,同样会被识别出来,要绕过这种检测,只有重新编译webdriver,麻烦自不必说,难度不是一般大。
由于Selenium具有这些严重的缺点。pyperteer成为了爬虫界的又一新星。相比于selenium具有异步加载、速度快、具备有界面/无界面模式、伪装性更强不易被识别为机器人,同时可以伪装手机平板等终端;虽然支持的浏览器比较单一,但在安装配置的便利性和运行效率方面都要远胜selenium。
pyppeteer无疑为防爬墙撕开了一道大口子,针对selenium的淘宝、美团、文书网等网站,目前可通过该库使用selenium的思路继续突破,毫不费劲。
01.Pyppeteer简介
Pyppeteer其实是Puppeteer的Python版本,下面简单介绍下Pyppeteer的两大特点,chromium浏览器和asyncio框架:
1).chromium
Chromium是一款独立的浏览器,是Google为发展自家的浏览器Google Chrome而开启的计划,相当于Chrome的实验版,Chromium的稳定性不如Chrome但是功能更加丰富,而且更新速度很快,通常每隔数小时就有新的开发版本发布
2).asyncio
syncio是Python的一个异步协程库,自3.4版本引入的标准库,直接内置了对异步IO的支持,号称是Python最有野心的库,官网上有非常详细的介绍:
02.安装与使用
1).极简安装
使用pip install pyppeteer命令就能完成pyppeteer库的安装,至于chromium浏览器,只需要一条pyppeteer-install命令就会自动下载对应的最新版本chromium浏览器到pyppeteer的默认位置。
如果不运行pyppeteer-install命令,在第一次使用pyppeteer的时候也会自动下载并安装chromium浏览器,效果是一样的。总的来说,pyppeteer比起selenium省去了driver配置的环节。
当然,出于某种原因,也可能会出现chromium自动安装无法顺利完成的情况,这时可以考虑手动安装:首先,从下列网址中找到自己系统的对应版本,下载chromium压缩包;
然后,将压缩包放到pyppeteer的指定目录下解压缩,windows系统的默认目录。其他系统下也放到各自默认目录即可。
2).使用
安装完后就来试试效果。一起来看下面这段代码,在main函数中,先是建立一个浏览器对象,然后打开新的标签页,访问百度主页,对当前页面截图并保存为“example.png”,最后关闭浏览器。前文也提到过,pyppeteer是基于asyncio构建的,所以在使用的时候需要用到async/await结构
现在网站或系统的开发,逐渐趋于前后端分离,这样数据的传入就需要通过接口的方式进行传输。所以Ajax、动态渲染数据采集逐渐成为常态,Pyppeteer的使用会越来越多。基于方便、便与管理的考量,需要整理Pyppeteer的工具类,提供给团队使用,下面是我在工作中整理的一个简单的工具类,共大家参考,由于内容有点多,这里就贴一部分代码。
一部分工具类代码:
import asyncio, tkinter, traceback
import base64, time, random
from pyppeteer import launch
from com.fy.utils.http.UserAgentUtils import UserAgentUtils
from com.fy.utils.hash.HashUtils import Hash_Utils
from com.fy.utils.file.FileUtils import File_Utils
class PyppeteerBrowser:
def __init__(self):
self.hash = Hash_Utils
self.url = None
self.ua = UserAgentUtils
def screen_size(self):
tk = tkinter.Tk
width = tk.winfo_screenwidth
height = tk.winfo_screenheight
tk.quit
return width, height
async def getbrowser(self, headless=False, userDataDir=None):
args = [ "--start-maximized", '--no-sandbox', "--disable-infobars" , "--log-level=3"]
parameters = {}
if userDataDir == None:
parameters = {'headless': headless, 'args': args, 'dumpio': True }
else:
parameters = {'headless': headless, 'args': args, "userDataDir": userDataDir, 'dumpio': True }
self.browser = await launch(parameters)
self.page = await self.browser.newPage
width, height = self.screen_size
await self.page.setViewport({ "width": width, "height": height })
await self.page.setJavaScriptEnabled(enabled=True)
await self.page.setUserAgent(self.ua.getheaders)
await self.preventCheckWebdriver(self.page)
async def getPage(self):
return self.page
async def getCurUrl(self, page):
if page == None:
page = self.page
return page.url
async def getnewpage(self):
return await self.browser.newPage
async def reload(self):
await self.page.reload
async def goBack(self):
await self.page.goBack
async def getPageUrl(self):
await self.page.url
async def open(self, url, timeout=60):
try:
self.url = url
self.res = await self.page.goto(url, options={'timeout':int(timeout * 1000)})
await asyncio.sleep(1)
status = self.res.status
curUrl = self.page.url
await self.preventCheckWebdriver(self.page)
return status, curUrl
except:return 404, None