机器学习(1)——机器学习的分类
本文是 imooc Python3入门机器学习 的学习笔记,用于整理自己学习到的概念,用以备查。
第一种分类方式
监督学习
简单说来,就是对于学习对于所要求的数据集,是否需要标注。
常见的监督学习算法有:
- K近邻算法
- 线性回归和多项式回归
- 逻辑回归
- SVM
- 决策树和随机森林
非监督学习
常见的 非监督算法及其用处见下:
- 各类聚类算法,如K-means,可用于电商对商品或者用户进行聚类分析,也可用于社区发现等应用场景。
- 数据降维,如PCA,可以将高维数据将为低维数便于处理。
- 异常检测,如果一个样例在空间测度上里大部分样例较远,可以判定其为异常点,与聚类类似。
半监督学习
出于各种原因,数据集可能出现一部分数据集带有标记,而另一部分则缺失标记。此时我们需要使用半监督学习来处理。
而此时我们可以先用无监督学习的方式对数据进行预处理,之后在使用监督学习的手段对数据进行训练和预测。
增强学习
下图是出增强学习的图示,主要指智能体(agent),根据环境采取行动,再根据行动导致的结果,采取特定的行动方式。主要在类似于alphaGo、无人驾驶领域。
第二种分类方式
批量学习(batch learning)
batch learning 即批量学习,有时也称离线学习。每次学习的时候需要将数据集一次性全部投入。如果数据集更新则需重新学习。
其缺点在于无法及时更新,对于像股市预测和电商在线运营等场景不是很友好。
在线学习 (online learning)
在线学习再训练出模型之后,并不会定死,而是根据新输入的数据及时更新。非常适用于在线系统,以及数据量十分巨大的场景。
参数学习和非参数学习
- 参数学习 一旦学习到了参数就不再需要原始数据。
- 非参数学习 不是指学习中不使用参数,而是不指定特定的模型,因而无需学习固定的参数。