python爬虫:多媒体文件抽取

目的

批量下载网页图片

导入库

urllib中的request中的urlretrieve方法,可以下载图片

lxml用于解析网页

requests用于获取网站信息

import urllib

from lxml import etree

import requests

定义回调函数

回调函数中,count表示已下载的数据块,size数据块大小,total表示总大小。

在使用urllib中的request中的urlretrieve方法时,加入的回调函数,会在每次数据块传递完毕时触发,传递参数,可作为下载进度使用。

python爬虫:多媒体文件抽取

获取图片地址

通过request获取图片地址后,通过xpath语法,对全局查找img标签,获取其src属性。即图片地址

python爬虫:多媒体文件抽取

下载

归并地址,命名文件路径和文件名,设定回调函数,完成下载。

i=0

for img_url in img_urls:

    urllib.request.urlretrieve('http:'+img_url,'img'+str(i)+'.jpg',schedule)

    i+=1

print('finish')

另外一组图片下载的完整代码

python爬虫:多媒体文件抽取