深度之眼李航《统计学习方法》训练营第六期+第一章统计学习方法概述
《统计学习方法》第一章:统计学习方法概述
《统计学习方法》第一章:统计学习方法概述
训练营刚刚开始,希望自己能够坚持完成课程内容,啃完这本书,并且坚持做完笔迹,保证博客更新。
这部分都比较基础,有机器学习基础的都会知道这些概念,这里仅做一个简单小记。主要的内容包含在下图中,可以说贯穿整本书的内容。
1.1统计学习
监督学习的实现步骤:
- 得到一个有限的训练数据集合;
- 确定包含所有可能的模型的假设空间, 即学习模型的集合;
- 确定模型选择的准则,即学习的策略;
- 实现求解最优模型的算法, 即学习的算法;
- 通过学习方法选择最优模型;
- 利用学习的最优模型对新数据进行预测或分析
1.2监督学习
基本概念:
- 输入空间、 特征空间与输出空间
训练集、测试集、验证集 - 联合概率分布
- 假设空间
即备选模型,通过决策函数或条件概率分布来预测选择模型
1.3统计学习三要素
- 模型
下图中f以及P就是备选的模型,求解模型就是求解参数θ - 策略
策略主要就是按照什么样的准则学习或选择最优的模型。
策略主要体现在损失函数上,用来来度量预测错误的程度;损失函数主要有以下几种:
而最终选择模型的策略是经验风险最小化与结构风险最小化:
1.4模型评估与模型选择
- 训练误差与测试误差
- 过拟合问题
1.5正则化与交叉验证
1.6泛化能力
1.7生成模型与判别模型
1.8分类问题
牢记这些评价指标
1.9标注问题
标注(tagging) 也是一个监督学习问题。 可以认为标注问题是分类问题的一个推广, 标注问题又是更复杂的结构预测(structure prediction)问题的简单形式。
1.10回归问题
回归问题得到的是连续的值。这样的话监督学习就可以分为分类问题和回归问题
重点部分
泛化误差上界
作业
在网上找到了很好的解答,自己写了一遍,不过还是用截图,自己写得太丑了