统计机器学习方法--------记录与总结
统计学习方法步骤:
- 得到一个有限训练数据集
- 确定包含所有可能的模型假设空间,即学习模型的集合
- 确定模型选择的准则,即学习的策略
- 实现求解最优模型的算法,即学习的方法
- 通过学习方法选择最优模型
- 利用学习的最优模型对新数据进行预测与分析
统计学习三要素:
模型 + 策略 + 算法
有了模型的假设空间,统计学习接着需要考虑的是按照什么样的准则学习或选择最优的模型,统计学习的目的在于从假设空间中选取最优模型。
下面引入损失函数和风险函数:
常用损失函数:
(1)0-1损失函数(0-1 loss function)
(2)平方损失函数 (quadratic loss function)
(3)绝对损失函数 (absolute loss function)
(4)对数损失函数(logarithmic loss function)或对数似然损失函数 (loglikehood loss function)
损失函数是该模型f(x) 关于联合分布P(X,Y)的平均意义下的损失,称为风险损失或期望损失;
经验风险(模型关于训练数据集的平均损失):
总结:期望风险是模型关于联合分布的期望损失,经验风险是模型关于训练样本集的平均损失。根据大数定律,当样本容量趋于无穷时,经验风险趋于期望风险。所以我们可以用经验风险去估计期望风险,因为我们并不知道联合分布函数,但这限制于样本的数目,当样本数量过小的时候,此方法就不太可行了。
下面关于介绍模型的选择:
一般我们都会基于训练数据集,使用经验风险最小化,在假设空间中,开始学习模型,选取损失函数,利用经验风险最小化,从而得到参数的估计,也就是此模型;但这个模型是不是最优的,我们并不知道,我们还需要进行基于测试数据的预测误差是不是最小的进行判断,此时再选取损失函数(但此时的损失函数未必就是之前的损失函数)。
如果我们为了一味追求提高训练数据的预测能力,所选的模型的复杂度往往会比真实模型的复杂度高很多,此就是过拟合;这对已知数据的预测能力很好,但对未知数据的预测能力极差。
基于经验风险最小化,一般是基于大样本进行的。
模型选择的另一种典型方法是正则化(结构风险最小化);其作用是选择经验风险与模型复杂度同时较小的模型。适用于小样本。
还有一种当数据小的时候,还可以选择交叉验证;也就是对数据集进行多次的切分,测试,选择出平均测试误差最小的模型。
泛化能力:
统计机器学习中关于泛化能力的介绍:
在机器学习方法中,泛化能力通俗来讲就是指学习到的模型对未知数据的预测能力。在实际情况中,我们通常通过测试误差来评价学习方法的泛化能力。但这种评价是依赖于测试数据集的,因为测试数据集是有限的,很有可能由此得到的评价结果是不可靠的。统计学习理论试图从理论上对学习方法的泛化能力进行分析。
学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的;简称泛化误差上界。
关于泛化误差上界的证明: