您的位置: 首页 > 文章 > 2 模型评估与选择

2 模型评估与选择

分类: 文章 • 2024-12-29 09:26:22

文章目录

2.5偏差与方差
2.6阅读材料

2.5偏差与方差

对学习算法除了通过实验估计其泛化性能,
还希望了解它“为什么”有这样的性能.
“偏差一方差分解”是解释学习算法泛化性能的一种重要工具

2 模型评估与选择

偏差-方差分解对学习算法的期望泛化错误率拆解
算法在不同训练集上学得的结果不同
- 即便这些训练集是来自同一分布
测试样本 $x$ , $y_D$ 为 $x$ 在数据集中的标记
- $y$ 为 $x$ 的真实标记
- $f(x;D)$ 为训练集 $D$ 上学得模型 $f$ 在 $x$ 上的预测输出
回归任务为例,学习算法的期望预测

2 模型评估与选择

用样本数相同的不同训练集产生的方差

2 模型评估与选择

噪声

2 模型评估与选择

期望输出与真实标记的差别

2 模型评估与选择

假定噪声期望为零

2 模型评估与选择

通过简单的多项式展开合并,可对算法的期望泛化误差分解

2 模型评估与选择

2 模型评估与选择

2 模型评估与选择

2 模型评估与选择

注意！

2 模型评估与选择

于是

2 模型评估与选择

偏差(2.40)度量学习算法的期望预测与真实结果的偏离,
- 学习算法本身的拟合能力
方差(2.38)度量
- 同样大小的训练集的变动所导致的学习性能的变化,
- 数据扰动所造成的影响;
噪声(2.39):在当前任务上任何学习算法所能达到的期望泛化误差的下界,即学习问题本身的难度.
泛化性能由学习算法的能力、数据的充分性及学习任务本身的难度共同决定
给定学习任务,为取得好的泛化性能,
- 则需使偏差较小,即能够充分拟合数据,
- 且使方差较小,即使得数据扰动产生的影响小

2 模型评估与选择

偏差—方差窘境
给定学习任务,假定能控制学习算法的训练程度
- 训练不足时,学习器的拟合能力不强,训练数据的扰动不足以使学习器产生显著变化,此时偏差主导泛化错误率
- 随着训练程度加深,学习器拟合能力逐渐增强,训练数据发生的扰动渐渐能被学习器学到,方差主导泛化错误率
- 训练程度充足后,学习器拟合能力已非常强,训练数据发生的轻微扰动都导致学习器显著变化,若训练数据自身的、非全局的特性被学习器学到了,将过拟合

2 模型评估与选择

2.6阅读材料