python爬取猫眼电影
首先来了解一下python中yield函数迭代的功效
https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/
然后这一期我们来玩一下python爬去猫眼电影,
当然,注意的地方是这里的headers一定要带上,看着被人不带上也能玩,可是我不行,觉得这是一个坑,还是带上吧。总之,要想着在学习生涯里,别人能玩的东西,自己不要只是艳羡,如果自己感兴趣,自己也可以玩玩的。
import requests
from requests.exceptions import RequestException
import re
from multiprocessing import Pool
import json
#这里一定要给到一个headers,如果不给是得不到结果的
def get_one_page(url):
try:
headers ={
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36'
}
response = requests.get(url,headers = headers)
if response.status_code == 200:
return response.text
return None
except RequestException:
return None
#这里要注意的是正则表达式截取对应的html位置,前后缀
def parse_one_page(html):
#解析html页面
pattern = re.compile('<dd>.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
+'.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)'
+'</p>.*?eger">(.*?)</i>.*?on">(\d+)</i></p> ',re.S
)
items = re.findall(pattern, html)
for item in items:
yield {
'index':item[0],
'image':item[1],
'title':item[2],
'actor':item[3].strip()[3:],
'time':item[4].strip()[5:],
'score':item[5]+item[6]
}
#这里要注意的是编码问题,如果不转会变成二进制数据
def write_to_file(content):
with open('result.txt','a',encoding= 'utf-8') as f:
f.write(json.dumps(content,ensure_ascii=False) + '\n')
f.close()
def main(offset):
url = 'http://maoyan.com/board/4?offset=' + str(offset)
html = get_one_page(url)
# parse_one_page(html)
for item in parse_one_page(html):
print(item)
write_to_file(item)
# if __name__ == '__main__':
# for i in range(10):
# main(i*10)
#多进程快速爬去,添加了进程池
if __name__ == '__main__':
pool = Pool()
pool.map(main,[i*10 for i in range(10)])