Selenium+Python-driver.page_source获取页面源码
一、driver.page_source
selenium的page_source方法可以获取到页面源码
跟爬虫有点相似,获取到页面资源,提取出我们需要的信息
二、案例
1.以煎蛋网为例,获取首页的全部title(获取页面源码 -- 使用re正则提取需要的title)
2.代码
#coding:utf-8 from selenium import webdriver import re class JianDan(): def __init__(self): self.browser = webdriver.Chrome() self.browser.get("http://jandan.net/") self.browser.maximize_window() self.browser.implicitly_wait(3) def get_page_title(self): self.page = self.browser.page_source # 非贪婪匹配,匹配所有满足'target="_blank">....</a></h2>'格式的信息,结果显示是一个列表 self.titles = re.findall(r'target="_blank">(.*?)</a></h2>',self.page) for title in self.titles: print(title) if __name__ == '__main__': jian_dan = JianDan() jian_dan.get_page_title()
3.结果