您的位置: 首页 > 文章 > html转Excel若干小技巧

html转Excel若干小技巧

分类: 文章 • 2024-09-06 17:38:58

目录

清洗数据-正则替换

分享背景

现在网络的数据很多，对于有规律的网站可以使用爬虫大规模获取，但是轻量级的数据就没必要编写爬虫了，不能每个网页都写一个程序，使用一些小技巧就可以。

目标网站

https://wenku.baidu.com/view/9e3a3559b9f3f90f76c61bc3.html

html转Excel若干小技巧

如上图某文库的文档，是不能复制的，而且是使用Ajax异步加载，加上N多的广告数据，有时候想爬都无力从心。我们的方法是直接复制HTML文件到一些文本编译器中，然后进行正则规范化和其他数据清洗操作。

获取html

1.等待网站加载完毕

2.按F12打开控制台

html转Excel若干小技巧

3.选择元素选择器并选择该表格所在的父节点

html转Excel若干小技巧

可以看到div是隐藏的，不可以直接选取，只能从子节点向上查找

html转Excel若干小技巧

4.复制父节点html数据到任意文本

html转Excel若干小技巧

我这是使用的notepad++

html转Excel若干小技巧

选择语言html，好看一些

html转Excel若干小技巧

可以看到数据在<p></p>标签中

html转Excel若干小技巧

清洗数据-正则替换

1.去除所有<p>标签，Ctrl+F，调出查找器，如下设置即可，替换值replace with什么都不填

html转Excel若干小技巧

html转Excel若干小技巧

2.去除所有</p>标签

html转Excel若干小技巧

html转Excel若干小技巧

html转Excel若干小技巧

3.替换所有空格，方框为逗号，方框可以复制一下，或者findwhat打一个空格

html转Excel若干小技巧

html转Excel若干小技巧

4.去除多余逗号，

html转Excel若干小技巧

html转Excel若干小技巧

6.删除开头结尾的div标签，并将所有数据变为一行

html转Excel若干小技巧

html转Excel若干小技巧

html转Excel若干小技巧

7，每条数据都是以保质期结尾，我们就按时间单位分行，不规范的手动清理

html转Excel若干小技巧

html转Excel若干小技巧

写入excel

ctrl+a 复制

html转Excel若干小技巧

html转Excel若干小技巧

html转Excel若干小技巧

html转Excel若干小技巧

html转Excel若干小技巧

html转Excel若干小技巧

html转Excel若干小技巧