统计学习(1)-概述
1 概论
1.1 统计学习
(1)特点
statistical learning是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。也称为统计机器学习
1. 以计算机及网络为平台
2. 研究对象是数据,数据驱动
3. 目的是对数据进行预测和分析
4. 以方法为中心
5. 多领域交叉
现在提到的机器学习,一般都是统计机器学习
(2)方法
主要是监督学习,半监督学习,非监督学习和强化学习等。
监督学习从给定的有限的训练集出发,假设数据是独立同分布的,而且假设要学习的模型属于某个函数的集合(称为假设空间)。从假设空间中选取一个最优的模型,让它对未知的数据有最优的预测,选取模型由算法实现。
这样就有了统计学习三要素:
- Model
- Stratety
- Algorithm
进一步我们就知道了,统计学习方法的步骤:
1. 得到训练集
2. 确定假设空间
3. 确定学习的策略,选择模型的准则
4. 实现求解最优模型的算法
5. 选择最优模型
6. 对新数据进行分析和预测
1.2 监督学习(Supervised Learning)
目的:学习一个模型,使得这个模型对于任意给定的输入,对其相应的输出有一个好的预测。
1.2.1 基本概念
- 输入空间、输出空间:输入与输出所有可能取值的集合
- 特征空间:特征向量存在的空间
- 特征向量:每个具体的输入实例,通常都是由特征向量来表示
有的时候,输入空间和特征空间是相同的。习惯把输入变量写作$X$
,输出变量写作$Y$
,而实际的输入变量的值用小写字母$x,y$
表示。变量是向量或者标量都可以,一般输入实例的特征向量就像下面这样:
表示第
那么按照之前的说法,训练数据 是什么样的呢?训练数据是输入和输出的组合,所以其实是这样的:
统计学习就是通过这样的训练数据的输入来学习模型,然后使用这个模型对测试数据进行预测。
之前还提到了,假设X,Y遵循联合概率分布
既然有了概率分布的假设了,那么接下来就是对于这个分布的一些条件的定义。所以就有了假设空间(hypothesis space)这个假设空间就是确定的我们学习的范围,也就是将我们把学习的模型(或者说分布)看作是一些已知的分布类型(可能有未知参数)的组合。给定的这些分布,就构成了假设空间。
1.2.2 统计学习的图形描述
上图中,学习系统就是根据测试数据 找到让模型在训练集上的预测结果最优的参数 。学习的得到的模型,就是那个最优的函数(或者说分布)。然后通过得到的这个函数,将测试数据作为输入,就可以得到其近似的预测结果了。