李航统计学习方法学习笔记（一）

1.1 实现统计学习方法（机器学习）的步骤如下：

（1）得到一个有限的训练数据集合

（2）确定包含所有可能的模型的假设空间，即学习模型的集合

（3）确定模型选择的准则，即学习的策略

（4）实现求解最优模型的算法，即学习的算法

（5）通过学习方法选择最优模型

（6）利用学习的最优模型对新数据进行预测或分析

1.2 统计学习（机器学习）的分类

（一）基本分类

监督学习

监督学习的目的在于学习一个输入到输出的映射，这一映射由模型来表示。换句话说，学习的目的就在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射的集合，这个集合就是假设空间（hypothesis space）。假设空间的确定意味着学习的范围的确定。

无监督学习

无监督学习是指从无标注数据中学习预测模型的的机器学习问题。无标注数据是自然得到的数据，预测模型表示数据的类别、转换或概率。无监督学习的本质是学习数据中的统计学习规律或潜在结构。

（二）按模型种类

（1）概率模型与非概率模型

监督学习中的概率模型取条件概率分布形式P(y|x)，非概率模型取函数形式y=f(x)，其中x是输入，y是输出

监督学习中的概率模型是生成模型，非概率模型是判别模型

概率模型有：决策树，朴素贝叶斯，隐马尔科夫模型，条件随机场，概率潜在语义分析，潜在狄利克雷分配，高斯混合模型。

非概率模型有：感知机，支持向量机，K近邻，AdaBoost，K均值，潜在语义分析，以及神经网络是非概率模型。

概率模型的代表是概率图模型，无论模型多么复杂，都有可以用最基本的加法规则和乘法规则进行概率推理

李航统计学习方法学习笔记（一）

（2）线性模型linear model和非线性模型non-linear model

如果y=f(x)是线性函数，则称模型是线性模型，否则则称模型是非线性模型

线性模型：感知机，线性支持向量机，K近邻，K均值，潜在语义分析

非线性模型：核函数支持向量机，Adaboost，神经网络

深度学习（deep learning）实际是复杂神经网络的学习，也就是复杂的非线性模型的学习。

（3）参数化模型（parametric model）和非参数化模型（non-parametric model）

参数化模型假设模型参数的维度固定，模型可以由有限参数完全刻画。

非参数化模型假设模型参数的维度不固定或者说无穷大，随着训练数据量的增加而不断增大。

参数化模型：感知机，朴素贝叶斯，逻辑斯蒂回归，K均值，高斯混合模型

非参数化模型：决策树，支持向量机，AdaBoost，K近邻，潜在语义分析，概率潜在语义分析，潜在狄利克雷分配

非参数化模型在复杂问题中更有效

（三）按算法分类

在线学习（online learning）：每次接受一个样本，进行预测，之后学习模型，并不断重复该操作进行机器学习

批量学习（batch learning）：批量学习一此接受所有数据，学习模型，之后进行预测

（四）按技巧分类

贝叶斯学习（Bayesian learning），又称贝叶斯推理，其主要想法是，在概率模型的学习和推理中，利用贝叶斯定理，计算给定数据条件下模型的条件概率，即后验概率，并应用这个原理对进行模型的估计，以及对数据的预测。

朴素贝叶斯、狄利克雷分配属于贝叶斯学习

核方法（Kernel method）是使用核函数表示和学习非线性模型的一种机器学习方法。

核PCA，核K均值属于核方法

1.3 统计学习的方法的三要素

方法=模型+策略+算法

（一）模型（假设空间）：找到一个备选模型的集合

假设空间可以用两种形式表示：

1.决策函数的集合

2.条件概率的集合

F通常是由一个参数向量决定的条件概率分布族，参数向量theta取值于n维欧式空间R^n，称为参数空间

李航统计学习方法学习笔记（一）

（二）策略：用什么样的准则从备选模型中学习或选择

1.损失函数：策略就体现在损失函数上，损失函数表示的是对于每一个实例，预测值和真实值之间差别的惩罚

李航统计学习方法学习笔记（一）

0-1损失函数：常用于分类问题中，f(x)为预测值=0或1，观测值Y也是0或1，预测值和观测值不相等，认为有损失，损失值记为1相等，则没损失。

平方损失函数：常用于回归问题中

绝对损失：常用于回归问题中

对数似然损失：前三个都是针对决策函数的损失函数，而最后一个是针对条件概率函数的损失函数，P(Y|X)是似然函数

2.经验风险最小化与结构风险最小化

在假设空间，损失函数以及训练数据集都确定的情况下，经验风险函数式就可以确定。

经验风险最小化（empirical risk minimization，ERM）的策略认为，经验风险最小的模型是最优的模型。

李航统计学习方法学习笔记（一）

但这个策略适合于样本容量比较大的情况，如果样本容量少，利用这个策略容易出现过拟合。

结构风险最小化（structural risk minimization,SRM)是为了防止过拟合而提出的策略。结构风险最小化等于正则化（regularization）。结构风险是在经验风险上加上表示模型复杂度的正则化项（regularizer）或罚项（penalty term）。在假设空间，损失函数以及训练数据集确定的情况下，结构风险的定义是：

李航统计学习方法学习笔记（一）

J(f)表示f这个模型的复杂度

（三）算法

算法是指学习模型的具体计算方法。

李航统计学习方法学习笔记（一）

相关推荐