Python爬虫(2/2)获取数据并存储

代码下载:http://download.****.net/download/linghugoolge/9892372

1、概述

我最喜欢的例子,也是中国人耳熟能详的例子,把大象放进冰箱需要几步,答案三步。在这里,也是3步,获取URL链接,处理网页中的内容,将内容保存下来供自己使用。对于今日头条,上述就完成了新闻采集,之后对采集的新闻进行标签化处理,处理之后推送出去。可以看出这里有多个三步嵌套在一起。

Python爬虫(2/2)获取数据并存储
三步走

2、获取

#Python3.X

import urllib.request

url = "http://www.baidu.com"

data = urllib.request.urlopen(url).read()

data = data.decode('UTF-8')

print(data)

request获取url链接,urlopen打开链接,这里体现不出request和urlopen的区别,如果获取链接的时候需要一些页面输入,头信息,加入request中。本文用不到request,需要了解自行百度。

Python爬虫(2/2)获取数据并存储
输出结果

由结果可以看出,最终获取的数据是HTML。无法解析,可以能编码错误,将UTF-8改为GBK

3、处理

正则表达https://deerchao.net/tutorials/regex/regex.htm

参考教程http://blog.****.net/eastmount/article/details/51082253

m_tr =re.findall(res_tr,language,re.S|re.M)

for line in m_tr:

      print(line)

4、存储

三步走:打开TXT文件—写入数据—关闭

参考教程:http://www.jb51.net/article/80959.htm

import requests

ff = open('testt.txt','w',encoding='utf-8')

for line in f:

ff.write(line)

ff.close()