好东西!Google 正式发布数据集搜索工具!

前两天 Google 低调地发布了一款重磅工具,谷歌数据集搜索,目前仍处于测试阶段:

好东西!Google 正式发布数据集搜索工具!

什么是数据集搜索呢?简单说来,过去我们想要一份数据,数据源要么是来自自己日益积累的数据库,要么是通过搜索引擎检索出来的,还有一种办法,通过一些特殊渠道购买数据。

然而这三种数据来源渠道都非常受限。第一种,自己生产数据,需要强大的流量支持,采集需要时间;第二种,搜索引擎检索,数据源的可靠性和完整性是个问题;至于第三种,虽然数据通常比较可靠,但是合法性是头等问题,通常通过「暗网」等一些违法渠道交易获取。

数据的重要性毋庸置疑,几乎所有的互联网公司和人才都在与数据打交道。产品经理需要做市场调研,运营人员需要搞营销活动等,都需要数据的支撑。

换个角度,想想自己公司的数据分析师,那些招聘网站上的大数据工程师的需求有多少、给到的薪资待遇有多高就知道了。

虽然互联网时代的数据如此重要,但是市面上很少有非常实用、完整可靠的数据检索工具,或者说聚合平台。

很自然的,Google Dataset Search 的出现可以说是解决一大部分人和公司的燃眉之急。

比如我想知道中国人的收入水平,搜索 Chinese Salary 关键字就能得到如下的结果,包括数据提供者,数据采集时间,地区等信息:

好东西!Google 正式发布数据集搜索工具!

点击其中的链接,可以看到一份详细完整的分析报告。其中还包括很多图表性的可视化信息,如:

好东西!Google 正式发布数据集搜索工具!

想想,如果不是利用这个工具,我们该怎么做呢?常见的做法就是爬虫,抓取各个相关网站的数据信息,再分析提取,非常繁琐的过程。Google Dataset Search 帮你一步到位。

有一点遗憾的是,虽然这个工具支持中文,但大家都懂得,正常上网渠道不能访问,期待 Google 早日解决这个问题。

相信凭借 Google 的全球影响力,将来数据集形成足够大的规模之后,一定广受欢迎和使用。只是,那是是否还能免费使用,就不得而知了。

近期分享:

GitHub 作假:真的以为能瞒天过海?怀旧 DOS 游戏:GitHub 再现高人,找回年代感!

好东西!Google 正式发布数据集搜索工具!