Python爬虫(2/2)获取数据并存储
代码下载:http://download.****.net/download/linghugoolge/9892372
1、概述
我最喜欢的例子,也是中国人耳熟能详的例子,把大象放进冰箱需要几步,答案三步。在这里,也是3步,获取URL链接,处理网页中的内容,将内容保存下来供自己使用。对于今日头条,上述就完成了新闻采集,之后对采集的新闻进行标签化处理,处理之后推送出去。可以看出这里有多个三步嵌套在一起。
2、获取
#Python3.X
import urllib.request
url = "http://www.baidu.com"
data = urllib.request.urlopen(url).read()
data = data.decode('UTF-8')
print(data)
request获取url链接,urlopen打开链接,这里体现不出request和urlopen的区别,如果获取链接的时候需要一些页面输入,头信息,加入request中。本文用不到request,需要了解自行百度。
由结果可以看出,最终获取的数据是HTML。无法解析,可以能编码错误,将UTF-8改为GBK
3、处理
正则表达https://deerchao.net/tutorials/regex/regex.htm
参考教程http://blog.****.net/eastmount/article/details/51082253
m_tr =re.findall(res_tr,language,re.S|re.M)
for line in m_tr:
print(line)
4、存储
三步走:打开TXT文件—写入数据—关闭
参考教程:http://www.jb51.net/article/80959.htm
import requests
ff = open('testt.txt','w',encoding='utf-8')
for line in f:
ff.write(line)
ff.close()