您的位置: 首页 > 文章 > python爬虫添加

python爬虫添加

分类: 文章 • 2023-12-02 19:59:34

爬虫的URL：统一资源定位符（网址）

写一个爬虫：（1）定位一个目标数据{网站/页面}

（2）分析数据+加载流程（在这里是分析目标数据对应的URL）

（3）下载数据

（4）清洗处理到的数据

(5)保持数据的持久化

这个例子是爬一个网站中的小说，把这个小说找到并下载下来保存：

在这里使用requests库得到实现。

python爬虫添加

.加上re.S表示能匹配到所有字符，如果不加的话，那些空格等非可见字符，换行无法匹配的到
不用加号，可能会增加内存，用%

python爬虫添加

python爬虫添加