重启数据科学:如何开启第二次的学习?

全文共2092字,预计学习时长8分钟

重启数据科学:如何开启第二次的学习?

图源:unsplash

 

就像看一部未完结的漫画一样,攒了很久的更新终于打算一次看个够,直接书接上回以前的内容有点儿记不住了,重头再看又索然无味。重温的方式和第一次看肯定是不一样的。若你想重新学习机器学习和数据科学,该从何处下手呢?

 

笔者最近就打算重拾数据科学,有趣的是,预期和实际开始学习的方式截然不同。不同人对学习方式各不相同。有人更喜欢看视频学习,有些人选择看书,还有许多人选择参加付费课程督促自己学习。

 

而笔者更喜欢逐步推进、由易到难的方式,从一些实例开始,然后逐步转向更为深奥的理论。其实这些方式都是可以的,重要的是有所收获,乐在其中。

 

重启数据科学:如何开启第二次的学习?

重启数据科学:如何开启第二次的学习?

Kaggle微课

 

可能有人会觉得从此处开始有些奇怪,更多人更倾向于从最基础的知识开始,先看一些数学视频,全面了解机器学习模型具体的建立方式。但笔者觉得,从一些实际具体的事情入手,有助于更好了解整体情况。

 

每堂微课需大约花费4小时,若提前完成这些学习目标,将得到额外的奖励。

 

Kaggle微课:Python

 

如果已经对Python很熟悉了,可跳过此部分。学习基础的Python概念有助于学习数据科学。关于Python的知识,很多还是个谜。但随着课程推进,可以通过实践进行学习。

 

链接: https://www.kaggle.com/learn/python

 

价格:免费

 

Kaggle微课:数据可视化

 

数据可视化最容易被忽略,但它确实十分重要,有助于充分掌握要处理的数据。

 

链接: https://www.kaggle.com/learn/data-visualization

 

价格:免费

 

重启数据科学:如何开启第二次的学习?

图源:unsplash

 

Kaggle微课:Pandas

 

此部分讲解在Python中操作数据的技能。4小时的微课和实例相结合,足够让大家对Pandas有所了解。

 

链接: https://www.kaggle.com/learn/pandas

 

价格:免费

 

Kaggle微课:机器学习入门

 

激动人心的部分开始了!这里可以学习基础而重要的概念,开始训练机器学习模型,这些概念对于后面的学习至关重要。

 

链接: https://www.kaggle.com/learn/intro-to-machine-learning

 

价格:免费

 

Kaggle微课:机器学习教程

 

接着进入强化阶段,你将首次使用分类变量并处理数据中的空字段。

 

链接: https://www.kaggle.com/learn/intermediate-machine-learning

 

价格:免费

 

很明显,前面提到的5个微课并不是线性的过程,可能随时需要在过程中不断重新回顾概念。在使用Pandas时,也许需要找到Python课程,回忆之前学习的概念。又或者碰到机器学习课程入门的新功能时,需要找到Pandas文件,对这些新功能进行了解。看起来有点儿乱,但实际上能帮你更好地掌握这些内容。

 

通过前面5项课程,你会掌握必需的探索性资料分析技能以及创建基线模型的技能,接着就可以参加一些简单的Kaggle竞赛了,将所学的知识付诸实践。

重启数据科学:如何开启第二次的学习?

参加竞赛

 

Kaggle竞技比赛:Titanic

 

别害怕竞赛,这只是另一种学习方式而已,重要的不是比赛结果,而是学到知识。在竞赛中,可以学到分类问题以及相关度量标准,如查准率、查全率和准确率。

 

链接: https://www.kaggle.com/c/titanic

 

Kaggle竞赛:HousingPrices

 

这一竞赛中使用回归模型,学习相关的度量标准,比如均方根误差(RMSE)。

 

链接:https://www.kaggle.com/c/home-data-for-ml-course

 

这些竞赛可以积累许多实践经验,你开始能解决许多问题。但是只是参赛,可能无法让人完全了解每次的分类操作及使用的回归算法的实现途径。

 

这也是需要学习基础知识的原因。许多课程都是由此开始,但先做过实际的练习,这些知识看起来会更“亲切”一些。

 

重启数据科学:如何开启第二次的学习?

基础知识

 

书籍:《数据科学入门》(Data Science from Scratch)

 

现在暂时抛开pandas、scikit-learn和其他Python库,来看看学习这些算法“背后”的原理。

 

本书易于理解,书中每个知识点都附有Python实例,没有许多复杂的数学运用,属于入门级的基础。毕竟大家都希望从实践角度去理解算法的原理,而不想因为阅读大量密集的数学符号而泄气。

 

链接: Amazon

 

价格: 约26美元

 

如果能走到这一步,笔者认为你完全有能力从事数据科学领域的工作,理解算法背后的基本原则。此时,就可以开始参加更为复杂的Kaggle竞赛,参与论坛,了解其他参赛者的算法,探索新的方法。

 

重启数据科学:如何开启第二次的学习?

图源:unsplash

 

网络课程:吴恩达的机器学习课程(Machine Learning by Andrew Ng)

 

虽然这里介绍的都是之前学过的知识,但是可以看到数据科学领域的大神是如何解释这些知识的,吴恩达的方法更为数学化,这将成为理解模型的极佳方式。

 

链接: https://www.coursera.org/learn/machine-learning

 

价格:免费(不附证书),或79美元(附参与证书)

 

书籍:《统计学习的要素》(TheElements of Statistical Learning)

 

现在要开始复杂的数学学习了,这部分很艰难,也是最容易放弃的时刻,坚持住!

 

链接: Amazon

 

价格:60美元,在斯坦福的网页上有官方的免费版本。

 

网络课程:吴恩达的深度学习课程(Deep Learning by Andrew Ng)

 

你可能已经读到过深度学习的相关知识,也自己创建过一些模型。但是,这个课程教授的是神经网络的基础原理及其运作,从中可以学到如何实现、运用现有不同架构。

 

链接:https://www.deeplearning.ai/deep-learning-specialization/

 

价格: 49美元/月

 

学到这里,相当于你已经追平了漫画的更新,接下来的事就可以自己发挥啦。可以选择专注研究回归模型和时间序列问题,或是深入研究深度学习,全凭你的兴趣抉择。

 

重启数据科学:如何开启第二次的学习?

我们一起分享AI学习与发展的干货

欢迎关注全平台AI垂类自媒体 “读芯术”

重启数据科学:如何开启第二次的学习?

(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)