html转Excel若干小技巧
目录
分享背景
现在网络的数据很多,对于有规律的网站可以使用爬虫大规模获取,但是轻量级的数据就没必要编写爬虫了,不能每个网页都写一个程序,使用一些小技巧就可以。
目标网站
https://wenku.baidu.com/view/9e3a3559b9f3f90f76c61bc3.html
如上图某文库的文档,是不能复制的,而且是使用Ajax异步加载,加上N多的广告数据,有时候想爬都无力从心。我们的方法是直接复制HTML文件到一些文本编译器中,然后进行正则规范化和其他数据清洗操作。
获取html
1.等待网站加载完毕
2.按F12打开控制台
3.选择元素选择器并选择该表格所在的父节点
可以看到div是隐藏的,不可以直接选取,只能从子节点向上查找
4.复制父节点html数据到任意文本
我这是使用的notepad++
选择语言html,好看一些
可以看到数据在<p></p>标签中
清洗数据-正则替换
1.去除所有<p>标签,Ctrl+F,调出查找器,如下设置即可,替换值replace with什么都不填
2.去除所有</p>标签
3.替换所有空格,方框为逗号,方框可以复制一下,或者findwhat打一个空格
4.去除多余逗号,
6.删除开头结尾的div标签,并将所有数据变为一行
7,每条数据都是以保质期结尾,我们就按时间单位分行,不规范的手动清理
写入excel
ctrl+a 复制