Python爬虫（2/2）获取数据并存储

1、概述

我最喜欢的例子，也是中国人耳熟能详的例子，把大象放进冰箱需要几步，答案三步。在这里，也是3步，获取URL链接，处理网页中的内容，将内容保存下来供自己使用。对于今日头条，上述就完成了新闻采集，之后对采集的新闻进行标签化处理，处理之后推送出去。可以看出这里有多个三步嵌套在一起。

三步走

#Python3.X

import urllib.request

url = "http://www.baidu.com"

data = urllib.request.urlopen(url).read()

data = data.decode('UTF-8')

print(data)

request获取url链接，urlopen打开链接，这里体现不出request和urlopen的区别，如果获取链接的时候需要一些页面输入，头信息，加入request中。本文用不到request，需要了解自行百度。

输出结果

由结果可以看出，最终获取的数据是HTML。无法解析，可以能编码错误，将UTF-8改为GBK

m_tr =re.findall(res_tr,language,re.S|re.M)

for line in m_tr:

print（line）

三步走：打开TXT文件—写入数据—关闭

import requests

ff = open('testt.txt','w',encoding='utf-8')

for line in f:

ff.write(line)

ff.close()