爬取动漫
以前做的小demo
主要使用 selenium ,urllib , 爬取腾讯动漫的前10话
selenium 的使用火狐浏览器的配置请参考 这篇 博客
程序使用的是火狐浏览器
from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.firefox.options import Options from selenium.webdriver.common.desired_capabilities import DesiredCapabilities from time import sleep import re import os import urllib.request #新建文件夹 def createfile(page): dirname ="Tencentcartoon" path = "E:\\Tencentcartoon" # 指定一个文件夹路径 os.makedirs(path + "\\" + "第" + str(page) + "话") # 设置无头模式 #options = webdriver.FirefoxOptions() options = Options() #options.add_argument('--headless') #options.add_argument('--disable-gpu') brower= webdriver.Firefox(options=options) # 控制下一话url page = 10 #前10话 for k in range(1,page): try: print(k) createfile(k) url = "https://ac.qq.com/ComicView/index/id/505430/cid/" + str(k) brower.get(url) for i in range(31): js = 'var q=document.getElementById("mainView").scrollTop=' + str(i * 1920) # 拼接js 语句 #浏览器执行js 滚动 #js = "window.scrollTo(0,document.body.scrollHeight)" brower.execute_script(js) sleep(1) data=brower.page_source # 提取图片地址 pat = '<img src="https://manhua.qpic.cn/manhua_detail/0/(.*?).jpg/0"' allid=re.compile(pat).findall(data) for i in range(0,len(allid)): thisid = allid[i] thisurl ="https://manhua.qpic.cn/manhua_detail/0/" +thisid+".jpg/0"# 拼接图片url path = "E:\\Tencentcartoon\\"+"第"+str(k)+"话\\"+str(i)+".jpg" #保存图片的地址 urllib.request.urlretrieve(thisurl,filename=path) except Exception as err: print(err) brower.quit()
其他的爬虫练习demo 以后会持续上传