周志华 机器学习 Day4

偏差和方差

“偏差-方差分解”是解释学习算法泛化性能的一种重要工具,其试图对学习算法的期望泛化错误率进行拆解。

对测试样本x,令 yD为x在数据集中的标记,y为x的真实标记,f(x;D)的意思是在训练集D上学得的模型f在x上的预测输出,以回归任务为例,学习算法的期望预测为

周志华 机器学习 Day4

通过简单的多项式展开合并,可对算法的期望泛化误差进行分解:

周志华 机器学习 Day4

也就是说,泛化误差可分解为偏差、方差与噪声之和。

一句话来说,偏差反映了拟合能力,方差反映了数据扰动造成的影响,噪声反映了学习的问题本身的难度。

一般来说,偏差与方差是有冲突的,这称为偏差-方差窘境 。

周志华 机器学习 Day4


线性模型

基本形式

给定由 d 个属性描述的示例 x = (x1; x2;...; xd),其中xi是x在第i个属性上的取值,线性模型 (linear model)试图学得一个通过属性的线性组合来进行预测的函数,即

周志华 机器学习 Day4

一般用向量形式写成:

周志华 机器学习 Day4

其中,ω=(ω1;ω2;......;ωd)


线性回归

如何确定ω和b呢?显然,关键在于如何衡量f(x)与y之间的差别。均方误差是回归任务中最常用的性能度量,因此我们可试图让均方误差最小化,即

周志华 机器学习 Day4

周志华 机器学习 Day4

若是令上述两式为零,可得ω和b的最优解

周志华 机器学习 Day4

周志华 机器学习 Day4