理解结构风险最小化
从数据中学习
经验风险/经验损失
经验风险最小化
认为经验风险最小的就是最优的模型,因此求解最优化问题:
其中F是假设空间,
当样本容量足够大时,经验风险可以有很好的学习效果,比如:极大似然估计就是经验风险最小化的一个例子,当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化等价于极大似然估计
然而当样本容量很小时,经验风险最小化的学习效果未必很好。会产生过拟合现象。
结构经验最小化
为防止过拟合而提出来的策略,结构最小化等价于正则化
结构风险=经验风险+模型复杂度的正则化项/罚项
在假设空间、损失函数及训练数据集确定的情况下,结构风险的定义如下:
比如:贝叶斯估计的最大后验概率估计就是结构风险最小化的一个例子,当模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型的先验概率表示时,结构风险最小化等价于最大后验概率估计。
结构风险最小化就是结构风险最小的模型,求解最优化问题