数据科学何以成为第二个MBA?

全文共2686字,预计学习时长9分钟

 

数据科学何以成为第二个MBA?

图源:unsplash

 

风口轮流转,如今,正当红的就是数据科学领域,很多人都希望能进入这一领域。一些新闻媒体把数据科学描述得十分有吸引力,各种学术机构都承诺在短短几个月内即可培训出数据科学家,这下你已有了通向灾难的秘诀。

 

作为数据科学家,我认为问题不在于人们愿意选择数据科学作为职业。如果你对处理数据、理解业务问题、学习数学感兴趣,并且喜欢编码,那么很可能会在数据科学领域有所建树。

 

你会有很多机会使用数学和编码来开发新颖的问题解决方案,并认为这项工作很有意义。主要问题在于人们进入数据科学领域的动机常常没有这么想。

 

对某些人来说,数据科学领域的吸引力是金钱,还有些人则喜欢这个职业头衔。更糟的是,有些人可能只是在回应社会灌输的羊群思想。

 

不久前,每位毕业生都渴望获得MBA学位。曾经我也是这样,我参加了GMAT考试并遭到了几次拒绝后,才意识到自己并不是真的想要这个学位。这些拒绝最终对我来说其实是好事,后来我终于意识到自己真正的兴趣是数据科学。

 

而今,我看到数据科学已经以某种方式获得了MBA曾经的地位。

 

很多人都想从事数据科学工作,但并不知道这项工作真正需要做什么;许多人自称数据科学家,还做出了许多错误的决策;许多人正在考虑进入数据科学行业,但他们甚至可能都不知道什么是数据科学。

 

数据科学何以成为第二个MBA?

图源:unsplash

 

互联网如此发达的今天,人们可以获得非常多的相关学习材料,数据科学领域开始走向大众化了。大量的慕课课程有最好的讲师,涵盖了从基础到高级的各种概念,你可以轻松地找到仅需几行代码即可创建模型的软件包。

 

这当然很好,我们有了这么多资源可以用来学习和实践数据科学。但是这种民主化本身也产生了一些问题,这些问题可能对数据科学领域带来的的不利影响。

 

数据科学何以成为第二个MBA?

 

自动化的数据科学?

 

许多AutoML软件包都旨在让数据科学走向大众化。这些软件包提供了模型存储库,可以自动执行超参数调整过程,有时还提供了把这些模型投入生产的方法。

 

这些软件包是如此方便,使得很多人相信数据科学可以完全实现自动化,再也不需要任何数据科学家。或者说,如果过程无法实现自动化,那么这些工具将可让任何人都成为数据科学家。

 

我从心底里反对这样的观点。我发现这样的代码库有时很有用,但纯粹是从编码角度来看数据科学。我认为,数据科学包括的工作不仅仅是建模。

 

数据科学的工作包括了解和识别当前的问题及建立正确的评估指标。此外数据科学家还必须分析项目的盈利能力:大多数企业都不想在可能会亏损的项目上花钱。

 

你可以使用现有数据,但是有时可能需要提出一些方法,建立新的数据管道来收集数据以解决问题。这就要求与利益相关者进行交谈,全方位地理解问题。数据科学家还需要进行数据整理和功能创建,从现有模型中获得更多性能。

 

最后,模型测试和设置反馈循环需要和企业进行不断的讨论,对每一项目都要进行专门的讨论。仅仅会运行代码的人可能无法为这样的讨论带来价值,他们并不了解AutoML中使用的模型背后的那一切。

 

数据科学何以成为第二个MBA?

图源:unsplash

 

其次就是这一领域专业知识的问题。零售领域可接受的流程不适用于金融领域,金融领域中,一个微小的变化都可能导致客户损失大量资金。有些程序不能自动化,因为需要行业知识以及对从事业务的了解。

 

更重要的是,如果某个项目无法正常工作或模型无法正常生产,自动流水线不承担任何责任。

 

优秀的数据科学家会找出解决生产问题的方法,创建针对该项目的机器学习管道以减少此类问题的发生。

 

数据科学何以成为第二个MBA?

 

代码运行者的心态

 

我一直对所谓的“新数据科学家”持怀疑态度。我几乎每天都会遇到自称数据科学家的人,而他们不过是光荣的代码运行者,只运行代码却不了解代码背后发生的事情。

 

随着越来越多的学院和研究所提供新手训练营课程,涌现了很多代码运行人员。经常有人问我,是应该参加XYZ研究所的认证课程,还是应该参加ABC学院的新人训练营。我的回答是都不要参加。

 

这些承诺可以大批培养数据科学家的机构主要都是以赚钱为主。浏览几个笔记本、运行别人的代码并不能保证最终能成为一名真正的数据科学家。

 

别误会如果有人通过自上而下的方法学习得很好,先运行代码,然后深入阅读其背后的原理,这是相当不错的。但是,数据科学不仅仅是运行代码。在没有真正了解所有代码背后的数学和理论之前,都不能声称掌握了数据科学。

 

数据科学何以成为第二个MBA?

 

邓宁-克鲁格效应

 

数据科学何以成为第二个MBA?

图源:维基百科

 

邓宁-克鲁格效应是一种认知偏差:一个对某些话题知之甚少的人会高估自己的能力,因为不知道自己对这一领域知识的匮乏。在数据科学领域经常能看到这一现象。

 

实际上这就是新手效应。这个问题困扰着刚开始学习新技能的人群。我把数据科学家的经历分为三个阶段:

 

· 邓宁-克鲁格阶段。创建了第一个模型,认为已经知道有关数据科学的所有知识。

· 一无所知阶段。参加了某场会议或与同行交谈后,突然意识到还有很多东西需要学习。

· 终身学习阶段。接受了这一事实:总会有一些不知道的新东西,因此追求数据科学是终身学习的过程。

 

邓宁-克鲁格效应是大多数初学者都会面临的阶段。运行第一个程序并完美执行这个程序,其中的乐趣真的会把你带到世界巅峰。在这个阶段有这样的感受就不错了。

 

然而,当新手无法走出现阶段,及时进入下一个阶段时,就会出现问题。一些人深陷在这个阶段,他们对数据科学抱有错误的期望,认为数据科学很性感并且令人兴奋,但却没有认识到这一领域的深度。

 

这种类型的人认为可以使用现有模型解决问题,在不了解数学的情况下就可以解决问题。

 

我最近面试了一位在数据领域有两年工作经验的人士。他似乎很有信心。曾在工作中使用过数据科学,曾参与过几个Kaggle项目。

 

面试的前几分钟非常顺利,他对高级概念的理解非常到位,于是我决定更深入地了解他对项目中应用技术上数学方面的理解。于是画风突变,我请他说说有关日志丢失的功能。当他提到“我们有做这一功能的软件包时”,我意识到,他从未离开过第一阶段。

 

数据科学何以成为第二个MBA?

图源:unsplash

 

现成的软件包和课程正在让数据科学领域变得大众化。但这项工作还有很多地方需要学习,你得从实际经验、与人沟通以及不同的观点中不断学习。

 

虽然有些人认为数据科学是纯粹的编码工作,但这项工作不仅仅关乎能否成为超级编码巨星。数据科学在于找到对企业有用的问题并提出解决这些问题的最佳方法。

 

你需要的是行业知识、谦虚的态度和一点数学知识,最重要的是,需要终身学习。别太浮躁,沉下心来,想清楚自己想要的到底是什么。

 

数据科学何以成为第二个MBA?

一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”

数据科学何以成为第二个MBA?

(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)