爬取网页表格到Excel ?别再复制粘贴了,太慢!
这种情况,可能你也遇到过:
做报表时需要一些外部数据,通常上网找。
比如,你要做一份手机产品调研,需要导入各品牌手机的参数,做对比分析。
◎ 中关村网的OPPO手机参数
这种网上数据,一般呈表格状。
你心想,既然Excel也是做表的,那复制下来不就完事了?
然后开始左点鼠标,非常“细心”选取表格,以确保不把多余又无关紧要的内容弄下来。
而这个过程,往往很磨人……
◎ 操作示范
贴了下来之后,问题还一堆:
排版失效,行列对不准,字体都挤在了一起。 表格原来的文本颜色,字体大小也被复制了下来,搞得你要重做一次排版。
文本含有超链接,还要你浪费时间去清除。
与其这样,那还不如截图下来更爽……可这就意味着数据不能动了。
事实上,这类网页表格,在网页源代码里,被统一称为table。
而Excel可以通过识别源代码,帮你毫无保留、原汁原味地将table的内容爬取下来。
爬完效果长这样:
◎ 操作示范
帮你调整好排版、字体颜色统一;
还自带筛选功能任你玩,想展示什么数据都可以。
◎ 中关村网的OPPO手机参数
那么问题来了,这是怎么做出来的呀?
呐,解题宝宝不瞒你,就是靠菜单栏一个按钮叫 自网站 ,
用它来帮我们导入网站数据。
◎ 按钮位置
以下,听我详细教你怎么做。
自网站导入数据
Step 1
复制要爬取的网站的链接。
打开 数据 - 自网站 ,复制进 基本 的URL框里,然后按确定。
接下来就出现了导航器 。
其中显示出命名为table0、table1、table2……等全部从该网站爬取下来的表格。
Step 2
选择你要的表格,只能选一张,然后按 加载 。
等大概10秒左右,表格就出来啦。
等待时长,取决于要爬取的数据有多大。
当数据量越大,你等待的时间就越长,这堆庞大数据造成电脑死机、卡顿的几率就越高。
所以,如果你要爬的数据量很大,尤其是当表格上千行、字数过万时;
你最好,先把电脑里一些占用内存较高的程序关掉,比如杀毒软件、音乐软件、视频语音之类。
◎ 爬完之后的样子
同步更新设置
爬下来的表格,实际上等同于「同步显示」网站的数据。
所以,你可以实现当网站的数据更新,这份表格也刷新,只显示最新数据。
超级贴心有没有,不用再麻烦你手动编辑修改。
尤其是要爬取时刻在变化的数字数据,如股市指数、网站日活、电商成交记录等……能让表格自己每天更新,就再好不过了。
操作方式
点击 数据 - 连接属性 ,这时你打开了 查询属性 设置框。
勾选 允许后台刷新 、 刷新频率 和 打开文件时刷新数据 这三个选项即完成。
◎ 爬完之后的样子