爬虫抓取图片

上一节介绍的是获取文字,这一节介绍获取图片并下载到本地。

用urllib模块很方便从网页上下载东西。

1, 在浏览器打开 http://www.lanrentuku.com/tupian/shuiguotupian/ ,按F12查看dom结构:发现图片是放在一个class为list-pic的DIV里,而且img里的src有完整的图片地址。

爬虫抓取图片

 

2,  开始尝试写:

# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
import time
import urllib

headers = {
"User-Agent""Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1) Gecko/20090624 Firefox/3.5",
               
"Accept""text/plain"'Connection''close'}
url = 
'http://www.lanrentuku.com/tupian/shuiguotupian/'
r = requests.get(url, headers=headers)
soup = BeautifulSoup(r.text, 
'html.parser')
div1 = soup.find(
'div'class_='list-pic')
imgs = div1.find_all(
'img')

for img in imgs:
    time.sleep(
3)
    
print '%s%s' % ('正在下载图片:',img['src'])
    img_name = img[
'src'].split('/')[-1]
    
try:
        urllib.urlretrieve(img[
'src'], "%s%s" % ('D:\\img\\', img_name))
    
except:
        
continue

 

发现是可以正常下载图片的:

 

爬虫抓取图片

更多内容请浏览:http://www.sterson.com.cn/?type_name=python2&chapter_name=%E7%88%AC%E8%99%AB%E6%8A%93%E5%8F%96%E5%9B%BE%E7%89%87