Selenium+Python-driver.page_source获取页面源码

一、driver.page_source

selenium的page_source方法可以获取到页面源码

跟爬虫有点相似，获取到页面资源，提取出我们需要的信息

二、案例

1.以煎蛋网为例，获取首页的全部title（获取页面源码 -- 使用re正则提取需要的title）

2.代码

#coding:utf-8
from selenium import webdriver
import re
class JianDan():
    def __init__(self):
        self.browser = webdriver.Chrome()
        self.browser.get("http://jandan.net/")
        self.browser.maximize_window()
        self.browser.implicitly_wait(3)

    def get_page_title(self):
        self.page = self.browser.page_source
        # 非贪婪匹配，匹配所有满足'target="_blank">....</a></h2>'格式的信息，结果显示是一个列表
        self.titles = re.findall(r'target="_blank">(.*?)</a></h2>',self.page)
        for title in self.titles:
            print(title)

if __name__ == '__main__':
    jian_dan = JianDan()
    jian_dan.get_page_title()

3.结果

Selenium+Python-driver.page_source获取页面源码

Selenium+Python-driver.page_source获取页面源码

相关推荐