《统计学习方法》- 概念介绍

1.1 基本概念

输入空间映射出特征空间,每一个具体的输入是一个实例,特征空间由特征向量组成

输入空间到输出空间的映射是模型,模型的集合称为假设空间

输入和输出对(x, y)称为样本或样本点

X和Y符合联合概率分布

《统计学习方法》- 概念介绍

《统计学习方法》- 概念介绍

预测系统对于给定的测试样本集中的输入xN+1给出对应的输出

《统计学习方法》- 概念介绍

1.2 统计学习三要素

1.2.1 模型

非概率模型有决策函数Y=f(X)表示,概率模型由条件概率P(Y | X)表示

1.2.2 策略

从假设空间中选取最优模型

(1) 损失函数(代价函数)与风险函数

代价函数是预测值与实际值相比的错误程度

《统计学习方法》- 概念介绍

《统计学习方法》- 概念介绍

《统计学习方法》- 概念介绍

(2) 经验风险最小化ERM和结构风险最小化SRM

经验风险最小化ERM:经验风险最小的模型是最优模型

结构风险最小化SRM:防止过拟合,增加罚项

《统计学习方法》- 概念介绍

1.2.3 算法

1.3 模型评估与模型选择

1.3.1 过拟合

随着模型复杂度增加,训练误差逐渐减小,测试误差先减小后增大

《统计学习方法》- 概念介绍

 1.3.2 正则化与交叉验证

(1) 正则化(结构风险最小化)

(2) 交叉验证:将模型分为训练集、验证集、测试集,并重复使用切分

  •  简单交叉验证:随机分为两部分(训练集、测试集)
  • S折交叉验证
  • 留一交叉验证

1.3.3 泛化能力

泛化能力指所用的模型对预测新数据的能力

泛化误差
《统计学习方法》- 概念介绍
《统计学习方法》- 概念介绍

1.4 具体问题

1.4.1 分类问题

分类准确率:分类器正确分类数与总样本数之比
《统计学习方法》- 概念介绍

1.4.2 标注问题

标注问题的输入为观测序列,输出为标记序列或状态序列