统计学习方法 (第1章)学习笔记

第1章 统计学习方法概论

统计学习是由监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforcement learning)组成。

1 统计学习方法概括如下:

  • 从给定的、有限的训练数据集合出发,假设数据是独立同分布产生的;
  • 并且假设要学习的模型属于某个函数的集合,称为假设空间;
  • 应用某个评价标准,从假设空间中选取一个最优模型,是它对已知训练数据及未知测试数据在给定的评价标准下有最优的预测;
  • 最优模型的选取由算法实现。

2 监督学习

监督学习的任务是学习一个模型,是模型能够对任意给定的输入,对其相应的输出做出一个好的预测。

 

  2.1.输入空间、特征空间与输出空间

  在监督学习中,将输入与输入所有可能取值的集合称为输入空间与输出空间。

  每个具体的输入是一个实例,通常有特征向量表示。所有特征向量存在的空间称为特征空间,其每一维对应一个特征。

输入实例x的特征向量记作

                              统计学习方法 (第1章)学习笔记

  监督学习从训练数据集合中学习模型,对测试数据进行预测。输入输出对又称为样本或样本点。

  • 输入变量与输出变量均为连续变量的预测问题称为回归问题;
  • 输出变量为有限个变量的预测问题称为分类问题;
  • 输入变量与输出变量均为变量序列的预测问题称为标注问题。

 

  2.2 联合概率分布

  监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)。P(X,Y)表示分布函数或分布密度函数。

 

  2.3 假设空间

  监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。模型属于由输入空间到输出空间的映射的集合,称为假设空间。由条件概率分布P(X|Y)或决策函数Y=f(X)表示。

3 统计学习三要素

统计学习三要素:  方法=模型+策略+算法

  • 模型:在监督学习过程中,模型就是所要学习的条件概率或决策函数,模型的假设空间包括所有可能的条件概率或决策函数。
  • 策略,即按照什么样的准则选择最优模型。

  3.1损失函数和风险函数:损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。

  统计学习方法 (第1章)学习笔记

    损失函数值越小,模型就越好,由于模型的输入、输出(X,Y)是随机变量,遵循联合分布P(X,Y),所以损失函数的期望是:

   统计学习方法 (第1章)学习笔记

   ( 这个称为风险函数或期望损失)

  经验损失(经验风险):

  统计学习方法 (第1章)学习笔记

    学习的目标就是选择期望风险最小的模型。但是一方面算期望风险需要用到联合分布,另一方面联合分布又是未知的,所以监督学习就成为一个病态的问题。根据大数定理,当样本容量N趋向于无穷是,我们的经验风险趋向于期望风险。所以我们可以用经验风险去估计期望风险。

    由于现实中训练样本数有限,甚至很小,所以还要考虑到监督学习的两个基本策略:经验风险最小化和结构风险最小化

    3.2经验风险最小化和结构风险最小化

      1.经验风险最小化:

  统计学习方法 (第1章)学习笔记

        当样本容量足够大是,经验风险最小化能保证有很好的学习效果,“极大似然估计”就是经验风险最小化的一个例子。但是,当样本容量很小时,效果就未必很好。

      2.结构风险最小化

        本身就是为了防止过拟合而提出的策略,就是在经验风险上加上了模型复杂惩罚函数,就是正则化项或罚项。

  统计学习方法 (第1章)学习笔记

      其中的J(f)为模型的复杂度。贝叶斯估计中的最大后验概率估计就是结构风险最小化的一个例子。

4 其他

  4.1 过拟合

    指学习时选择的模型所包含的参数过多,以至于出现模型对已知数据预测的很好,但对未知数据预测的很差的现象。一般防止过拟合的方法:正则化与交叉验证。

  4.2正则化

    正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。正则化的作用是选择经验风险与模型复杂度同时较小的模型。

  统计学习方法 (第1章)学习笔记

  4.3 交叉验证 

  • 简单交叉验证:随机的将已给数据分为两部分,一部分作为训练集,另一部分作为测试集,(例如, 70%的数据为训练集.30%的数据为测试集),然后用训练集在各种条件下(例如,不同的参数个数〉训练模型,从而得到不同的模型:在测试集上评价各个模型的测试误差,选出测试误差最小的模型.
  • S折交叉验证(K):首先随机地将已给数据切分为5 个互不相交的大小相同的于集:然后利用S- l 个子集的数据训练模型,利用余下的于集测试模型:将这-过程对可能的S 种选择重复进行.最后选出S 次评测中平均测试误差最小的模型。
  • 留一交叉验证:S 折交叉验证的特殊情形是S=N.往往在数据缺乏的情况下使用-这里.N 是给定数据集的容量

  4.4 泛化能力

    就是模型对未知数据的预测能力。

  统计学习方法 (第1章)学习笔记

  4.5 分类问题

    分类是监督学习的一个核心问题在监督学习中, 当输出变量Y 取有限个离散值时,预测问题便成为分类问题这时,输入变量X 可以是离散的,也可以是连续的.监督学习从数据中学习一个分类模型或分类决策函数,称为分类器(classifier) .

       评价分类器性能的指标一般是分类准确率。

       对于二分类问题常用的指标是——精确率和召回率。

       TP一将正类预测为正类数:
       FN一一将正类预测为负类数:
       FP一一将负类预测为正类数,
       TN-一将负类预测为负类数.

  统计学习方法 (第1章)学习笔记

    许多统计学习方法可以用于分类,包括K邻近法、感知机、朴素贝叶斯法、决策树、决策列表、逻辑斯特回归模型、支持向量机、提升方法、贝叶斯网络、神经网络等。分类的一个典型应用的例子就是文本分类。

  4.6 回归问题

     回归是监督学习的另-个重要问题回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系。回归问题的学习等价于函数拟合·选择一条函数曲线使其很好地拟合己知数据且很好地预测未知数据。回归问题按照输入变量的个数,分为一元回归和多元回归;按照输入变量和输出变量之间的关系即模型的类型,分为线性回归和非线性回归。回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以由著名的最小二乘法(least squares) 求解。