html转Excel若干小技巧

目录

分享背景

目标网站

获取html

清洗数据-正则替换

写入excel


分享背景

现在网络的数据很多,对于有规律的网站可以使用爬虫大规模获取,但是轻量级的数据就没必要编写爬虫了,不能每个网页都写一个程序,使用一些小技巧就可以。

目标网站

https://wenku.baidu.com/view/9e3a3559b9f3f90f76c61bc3.html

html转Excel若干小技巧

如上图某文库的文档,是不能复制的,而且是使用Ajax异步加载,加上N多的广告数据,有时候想爬都无力从心。我们的方法是直接复制HTML文件到一些文本编译器中,然后进行正则规范化和其他数据清洗操作。

获取html

1.等待网站加载完毕

2.按F12打开控制台

html转Excel若干小技巧

3.选择元素选择器并选择该表格所在的父节点

html转Excel若干小技巧

 可以看到div是隐藏的,不可以直接选取,只能从子节点向上查找

html转Excel若干小技巧

4.复制父节点html数据到任意文本

html转Excel若干小技巧

我这是使用的notepad++

html转Excel若干小技巧

选择语言html,好看一些

html转Excel若干小技巧

可以看到数据在<p></p>标签中

html转Excel若干小技巧

清洗数据-正则替换

1.去除所有<p>标签,Ctrl+F,调出查找器,如下设置即可,替换值replace with什么都不填

html转Excel若干小技巧

html转Excel若干小技巧

2.去除所有</p>标签

html转Excel若干小技巧

html转Excel若干小技巧

html转Excel若干小技巧

3.替换所有空格,方框为逗号,方框可以复制一下,或者findwhat打一个空格

html转Excel若干小技巧

html转Excel若干小技巧

4.去除多余逗号,

html转Excel若干小技巧

html转Excel若干小技巧

6.删除开头结尾的div标签,并将所有数据变为一行

html转Excel若干小技巧

html转Excel若干小技巧

html转Excel若干小技巧

7,每条数据都是以保质期结尾,我们就按时间单位分行,不规范的手动清理

html转Excel若干小技巧

html转Excel若干小技巧

写入excel

ctrl+a 复制

html转Excel若干小技巧

html转Excel若干小技巧

html转Excel若干小技巧

html转Excel若干小技巧

html转Excel若干小技巧

html转Excel若干小技巧

html转Excel若干小技巧