学python爬虫的打怪升级之路

学python爬虫的打怪升级之路,

以下是我学python爬虫的打怪升级之路,过程充满艰辛,也充满欢乐,虽然还未打倒大boss,但一路的风景就是最大的乐趣,不是么?希望大家能get到想要的东西!

多图预警!
学python爬虫的打怪升级之路




学python爬虫的打怪升级之路



;学python爬虫的打怪升级之路




学python爬虫的打怪升级之路







学python爬虫的打怪升级之路





学python爬虫的打怪升级之路






学python爬虫的打怪升级之路











学python爬虫的打怪升级之路









学python爬虫的打怪升级之路





学python爬虫的打怪升级之路





学python爬虫的打怪升级之路







学python爬虫的打怪升级之路







学python爬虫的打怪升级之路










学python爬虫的打怪升级之路







学python爬虫的打怪升级之路








学python爬虫的打怪升级之路





学python爬虫的打怪升级之路





学python爬虫的打怪升级之路






学python爬虫的打怪升级之路

以下奉献一段爬取知乎头像的代码

import requests
import urllib
import re
import random
from time import sleep
def main():
url='知乎 - 与世界分享你的知识、经验和见解'
#感觉这个话题下面美女多
headers={省略}
i=1
for x in xrange(20,3600,20):
data={'start':'0',
'offset':str(x),
'_xsrf':'a128464ef225a69348cef94c38f4e428'}
#知乎用offset控制加载的个数,每次响应加载20
content=requests.post(url,headers=headers,data=data,timeout=10).text
#用post提交form data
imgs=re.findall('<img src=\\\\\"(.*?)_m.jpg',content)
#在爬下来的json上用正则提取图片地址,去掉_m为大图
for img in imgs:
try:
img=img.replace('\\','')
#去掉\字符这个干扰成分
pic=img+'.jpg'
path='d:\\bs4\\zhihu\\jpg\\'+str(i)+'.jpg'
#声明存储地址及图片名称
urllib.urlretrieve(pic,path)
#下载图片
print u'下载了第'+str(i)+u'张图片'
i+=1
sleep(random.uniform(0.5,1))
#睡眠函数用于防止爬取过快被封IP
except:
print u'抓漏1张'
pass
sleep(random.uniform(0.5,1))

if __name__=='__main__':

main()


结果:

学python爬虫的打怪升级之路
最后,请关注我吧,我会好好维护你的时间线的 \( ^▽^ )/