【机器学习】机器学习概念简述
机器学习追求合理的假设空间的选取和模型的泛化能力
常见的机器学习应用场景:
数据挖掘、模式识别、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。
机器学习的过程:获取数据à处理数据à选择模型à训练模型à评估模型à可视化结果
常见机器学习算法:
线性回归
逻辑回归
决策树
SVM
朴素贝叶斯
K最近邻算法
K均值算法
随机森林算法
降维算法
GradientBoost 和 Adaboost 算法
机器学习过程:
机器学习的类型:
1、监督式学习(supervised learning):
在机械学习过程中提供对错指示,一类学习主要应用于分类和预测(regression & classify)。
监督学习从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注的。
使用有类标的训练数据构建模型,使用模型对未来的数据进行预测。
监督:训练数据集中的每个样本均有一个已知的输出项(类标label)。
利用分类对类标进行预测:
分类是监督学习的一个子类,目的是基于对过往类标已知实例的观察与学习,实现对新样本类标的预测。
一般类标是离散的,无序的,可视为样本的组别信息。
分类:二类别分类、多类别分类
通过有监督学习的机器学习算法获得一条规则,并将其表示为一条黑色的虚线标识的分界线,他可以将两类样本分开。
使用回归预测连续输出值:
回归分析:使用监督学习方法针对连续型输出变量进行预测。
回归分析中,数据会给出大量的自变量和相应的连续因变量,通过尝试寻找两种变量之间的关系,能够预测输出变量
线性回归:给定一个自变量x和因变量y,拟合一条直线使得样例数据点与拟合直线之间的距离最短。
一般采用平均平方距离来计算
通过对样本的训练来获得拟合直线的截距和斜率,从而对新的输入变量值所对应的输出变量值进行预测。
监督式学习的例子有:回归、决策树、随机森林、K–近邻算法、逻辑回归等。
监督学习一般使用离散的类标,处理分类、回归问题。
2、非监督式学习:
非监督学习又称归纳性学习(clustering)利用K方式(Kmeans),建立中心(centriole),通过循环和递减运算(iteration&descent)来减小误差,达到分类的目的。
无监督学习将处理无类标数据或者是总体分布趋势不明朗的数据,在未知输出变量和反馈函数指导的情况下,提取有效信息来探索数据的整体结构。
使用聚类发现数据的子群:
聚类是一种探索性的数据分析技术。
没有先验信息的情况下,他可以帮助我们将数据划分为有意义的小的组别。
每个组别中其内部成员之间具有一定的相似度,不同组别之间的成员具有较大的不同。
聚类获取数据的结构信息,以及导出数据间有价值的关系。
使用降维进行数据压缩:
数据降维是无监督学习的一个子域
无监督降维是数据特征预处理时常用的技术,用于清理数据中的噪声
降维能够最大程度保留相关信息的情况下将数据压缩到一个维度较小的子空间。
缺点是会降低某些算法在准确性方面的性能。
非监督式学习的例子有:关联算法和 K–均值算法。
3、强化学习(Reinforcement learning):
机器学习里面的一个分支,特别善于控制一只能够在某个环境下自主行动 的个体 (autonomous agent),透过和 环境 之间的互动,而不断改进它的行为 。
强化学习的目标是构建一个系统,在于环境交互的过程共提高系统的性能。
强化学习视为与监督学习相关的一个领域
在强化学习中的反馈值不是一个确定的类标或者连续类型的值,而是通过反馈函数产生的对系统当前行为的评价。
通过探索性的试错或者精心设计的激励系统使得正向值最大化。
强化学习的例子有马尔可夫决策过程。
4、半监督式学习:
监督学习与无监督学习相结合的一种学习方法。
半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。当使用半监督学习时,将会要求尽量少的人员来从事工作,同时,又能够带来比较高的准确性。
论推理算法(GraphInference)或者拉普拉斯支持向量机(Laplacian SVM.)等。