python爬虫添加
爬虫的URL:统一资源定位符(网址)
写一个爬虫:(1)定位一个目标数据{网站/页面}
(2)分析数据+加载流程(在这里是分析目标数据对应的URL)
(3)下载数据
(4)清洗处理到的数据
(5)保持数据的持久化
这个例子是爬一个网站中的小说,把这个小说找到并下载下来保存:
在这里使用requests库得到实现。
.加上re.S表示能匹配到所有字符,如果不加的话,那些空格等非可见字符,换行无法匹配的到
不用加号,可能会增加内存,用%
爬虫的URL:统一资源定位符(网址)
写一个爬虫:(1)定位一个目标数据{网站/页面}
(2)分析数据+加载流程(在这里是分析目标数据对应的URL)
(3)下载数据
(4)清洗处理到的数据
(5)保持数据的持久化
这个例子是爬一个网站中的小说,把这个小说找到并下载下来保存:
在这里使用requests库得到实现。
.加上re.S表示能匹配到所有字符,如果不加的话,那些空格等非可见字符,换行无法匹配的到
不用加号,可能会增加内存,用%