机器学习基础学习笔记（七）机器学习算法的类型（监督，无监督，强化学习）

以下内容均为https//nndl.github.io/nndl-book.pdf的学习笔记。

这里写目录标题

监督、无监督、强化学习

监督学习（Supervised Learning）
无监督学习（Unsupervised Learning，UL）
强化学习（Reinforcement Learning，RL）

改进
对比

监督、无监督、强化学习

按照训练样本提供的信息以及反馈方式的不同，将机器学习算法分为以下几类：监督学习、无监督学习、强化学习。

监督学习（Supervised Learning）

监督学习（Supervised Learning）：机器学习的目标是建模样本的特征???? 和标签???? 之间的关系：???? =????(????; ????) 或????(????|????; ????)，并且训练集中每个样本都有标签的机器学习方法。根据标签类型的不同，监督学习又可以分为回归问题、分类问题和结构化学习问题。
（1）回归（Regression）问题：标签???? 是连续值（实数或连续整数），????(????; ????) 的输出也是连续值．
（2）分类（Classification）问题：：标签???? 是离散的类别（符号）．在分类问题中，学习到的模型也称为分类器（Classifier）．分类问题根据其类别数量又可分为二分类（Binary Classification）和多分类（Multi-class Classification）问题．
（3）结构化学习（Structured Learning）问题：一种特殊的分类问题．在结构化学习中，标签???? 通常是结构化的对象，比如序列、树或图等．由于结构化学习的输出空间比较大，因此我们一般定义一个联合特征空间，将????, ???? 映射为该空间中的联合特征向量????(????, ????)，预测模型可以写为
机器学习基础学习笔记（七）机器学习算法的类型（监督，无监督，强化学习）
其中Gen(????) 表示输入???? 的所有可能的输出目标集合．计算arg max 的过程也称为解码（Decoding）过程，一般通过动态规划的方法来计算．

无监督学习（Unsupervised Learning，UL）

无监督学习（Unsupervised Learning，UL）是指从不包含目标标签的训练样本中自动学习到一些有价值的信息．典型的无监督学习问题有聚类、密度估计、特征学习、降维等．

强化学习（Reinforcement Learning，RL）

强化学习（Reinforcement Learning，RL）是一类通过交互来学习的机器学习算法．在强化学习中，智能体根据环境的状态做出一个动作，并得到即时或延时的奖励．智能体在和环境的交互中不断学习并调整策略，以取得最大化的期望总回报．

改进

1.监督学习需要大量的带有标签的数据集，往往需要人工采集标记，成本高。为了改进，出现了弱监督学习（Weakly Supervised Learning）和半监督学习（Semi-Supervised Learning，SSL）的方法，希望从大规模的无标注数据中充分挖掘有用的信息，降低对标注样本数量的要求。
2.强化学习和监督学习的不同在于，强化学习不需要显式地以“输入/输出对”的方式给出训练样本，是一种在线的学习机制．

对比

机器学习基础学习笔记（七）机器学习算法的类型（监督，无监督，强化学习）

机器学习基础学习笔记（七）机器学习算法的类型（监督，无监督，强化学习）

这里写目录标题

监督、无监督、强化学习

监督学习（Supervised Learning）

无监督学习（Unsupervised Learning，UL）

强化学习（Reinforcement Learning，RL）

改进

对比

相关推荐