《统计学习方法》- 概念介绍
1.1 基本概念
输入空间映射出特征空间,每一个具体的输入是一个实例,特征空间由特征向量组成
输入空间到输出空间的映射是模型,模型的集合称为假设空间
输入和输出对(x, y)称为样本或样本点
X和Y符合联合概率分布
预测系统对于给定的测试样本集中的输入xN+1给出对应的输出
1.2 统计学习三要素
1.2.1 模型
非概率模型有决策函数Y=f(X)表示,概率模型由条件概率P(Y | X)表示
1.2.2 策略
从假设空间中选取最优模型
(1) 损失函数(代价函数)与风险函数
代价函数是预测值与实际值相比的错误程度
(2) 经验风险最小化ERM和结构风险最小化SRM
经验风险最小化ERM:经验风险最小的模型是最优模型
结构风险最小化SRM:防止过拟合,增加罚项
1.2.3 算法
1.3 模型评估与模型选择
1.3.1 过拟合
随着模型复杂度增加,训练误差逐渐减小,测试误差先减小后增大
1.3.2 正则化与交叉验证
(1) 正则化(结构风险最小化)
(2) 交叉验证:将模型分为训练集、验证集、测试集,并重复使用切分
- 简单交叉验证:随机分为两部分(训练集、测试集)
- S折交叉验证
- 留一交叉验证
1.3.3 泛化能力
泛化能力指所用的模型对预测新数据的能力
泛化误差
1.4 具体问题
1.4.1 分类问题
分类准确率:分类器正确分类数与总样本数之比
1.4.2 标注问题
标注问题的输入为观测序列,输出为标记序列或状态序列