python爬虫：多媒体文件抽取

目的

批量下载网页图片

导入库

urllib中的request中的urlretrieve方法，可以下载图片

lxml用于解析网页

requests用于获取网站信息

import urllib

from lxml import etree

import requests

定义回调函数

回调函数中，count表示已下载的数据块，size数据块大小，total表示总大小。

在使用urllib中的request中的urlretrieve方法时，加入的回调函数，会在每次数据块传递完毕时触发，传递参数，可作为下载进度使用。

python爬虫：多媒体文件抽取

获取图片地址

通过request获取图片地址后，通过xpath语法，对全局查找img标签，获取其src属性。即图片地址

python爬虫：多媒体文件抽取

下载

归并地址，命名文件路径和文件名，设定回调函数，完成下载。

i=0

for img_url in img_urls:

urllib.request.urlretrieve('http:'+img_url,'img'+str(i)+'.jpg',schedule)

i+=1

print('finish')

另外一组图片下载的完整代码

python爬虫：多媒体文件抽取