一名机器学习工程师,需要掌握哪些基本知识技能?

现在,就让我们开始了解成为一名机器学习工程师所需要注意的各种细节方面的事宜。我们会把这些信息分成两个基本点进行阐述:技能简介以及语言和库。首先我们将从技能介绍开始,在日后的内容中我们将介绍机器学习的语言和库。

技能简介

1.计算机科学基础和编程

对机器学习工程师而言,计算机科学基础的重要性包括数据结构(数据堆栈、队列、多位数组、树形以及图像等等)、算法(搜索、分类、优化、动态编程等)、科计算性与复杂性(P对NP、NP完全问题、大O符号以及近似算法等)和计算机架构(存储、缓存、带宽、死锁和分布式处理等等)。

当你在编程的时候必须能够对以上提到的这些基础知识进行应用、执行、修改或者处理。课后练习、编码竞赛还有黑客马拉松比赛都是你不可或缺的磨练技能的绝佳途径。

2.概率论和数理统计

概率的形式表征(条件概率、贝叶斯法则、可能性、独立性等)和从其中衍生出的技术(贝叶斯网、马尔科夫决策过程、隐藏式马可夫模型等)是机器学习算法的核心,这些理论可以用来处理现实世界中存在的不确定性问题。和这个领域密切相关的还有统计学,这个学科提供了很多种衡量指标(平均值、中间值、方差等)、分布(均匀分布、正态分布、二项式分布、泊松分布等)和分析方法(ANOVA、假设实验等),这些理论对于观测数据模型的建立和验证非常必要。很多机器学习算法的统计建模程序都是可以扩展的。

3.数据建模及评估

数据建模就是对一个给定的数据库的基本结构进行评估的过程,目的就是发现其中所蕴含的有用模式(相互关系,聚合关系、特征矢量等)和/或者预测以前案例(分类,回归、异常检测等)的特征。评估过程的关键就是不断地对所给模型的优良性能进行评价。根据手中的任务,你需要选取一种恰当的精准/误差衡量指标(比如日志分类的损失、线性回归的误差平方和等等)和求值策略(培训测试、连续Vs.随机交叉验证等)。通过对算法的反复学习,我们可以发现其中会存在很多误差,而我们可以根据这些误差对模型(比如神经网络的反相传播算法)进行细微的调整,因此即使你想能够运用最基本的标准算法,也需要你对这些测量指标有所了解。

4.应用机器学习算法和库

尽管通过程式库/软件包/API(比如scikit-learn,Theano,SparkMLlib,H2O,TensorFlow等)可以广泛地实现机器学习算法的标准化执行,但是算法的应用还包括选取合适的模型(决策、树形结构、最近邻点、神经网络、支持向量机器、多模型集成等)、适用于数据的学习程序(线性回归、梯度下降法、基因遗传算法、袋翻法、模型特定性方法等),同时还需要你能够了解超参数对学习产生影响的方式。你也需要注意不同方式之间存在的优势和劣势,以及那些可能会让你受牵绊的大量陷阱(偏差和方差、高拟合度与低拟合度、数据缺失、数据丢失等)。对于数据科学和机器学习所带来的这些方面的挑战,大家可以去Kaggle网站获取很多学习参考,你可发现不同的问题当中存在的细微差别,从而可以让你更好的掌握机器学习的算法。

5.软件工程和系统设计

在每天工作结束的时候,机器学习工程师通常产生的成果或者应交付的产品就是一种软件。这种软件其实也是一种小型插件,它可以适用于相对更大型的产品或者服务的生态系统。你需要很好地掌握如何才能让这些彼此不同的小插件协同工作,并与彼此进行流畅的沟通(使用库函数调用、数据接口、数据库查询等)的方法,为了让其他的插件可以依附你的插件进行很好的工作,你也得需要为你的差价建立合适的接口。精心设计的系统可以避免以后可能出现的瓶颈问题,并让你的算法系统满足数据量激增时候的扩展性能。软件工程的最佳的实践经验(需求分析、系统设计、模块化、版本控制、测试以及归档等)对于产能、协作、质量和可维护性而言是不可获取的无价之宝。

人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
四大机器学习编程语言对比:R、Python、MATLAB、Octave
人工智能,机器学习和深度学习之间,主要有什么差异?
机器学习已经被广泛应用,但是入行机器学习主要难在哪里?


多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

一名机器学习工程师,需要掌握哪些基本知识技能?