李航统计学习方法

统计学习方法概论:

统计学习特点

统计学习的对象是数据,它要求数据是独立同分布的,从数据中提取特征,抽象出模型,发现数据中的规律然后对数据进行分析于预测。

统计学习方法三要素

模型、策略 、算法

模型:

模型是所要学习的条件概率分布或决策函数,首先模型有一个假设空间,其包含所有可能的条件概率分布函数或者决策函数,假设空间中的模型有无穷多个。
李航统计学习方法
李航统计学习方法

策略

策略就是按照什么样的准则学习或者选择最优的模型,期望风险最小化是理论上的原则,但是期望风险不可以得到,所以用经验风险最小化原则和结构风险最小化原则替代期望风险最小化。经验风险最小化原则适合于大样本,当样本无限大其等效于期望风险最小化,但是当样本较小时容易出现过拟合现象。结构风险最小化是争对小样本,防止过拟合的情况,结构风险化就是在经验风险化上增加了一个正则化项,是一个随着模型的复杂度增加而递增的函数,以此来限制模型过于复杂而出现过拟合。确定策略实际上就是确定了最优化的目标函数。

算法

用什么算法求解最优化目标函数。

模型的评价

泛化误差,泛化误差上界越小越好。
李航统计学习方法

生成方法和判别方法

李航统计学习方法
李航统计学习方法

感知机

感知机算法是神经网络和支持向量机的基础,对线性可分的数据具有收敛性
李航统计学习方法

贝叶斯

朴素贝叶斯

李航统计学习方法

贝叶斯估计

李航统计学习方法

决策树

决策树的两个步骤生成树和剪枝,生成树的关键是特征选择,依据信息增益来选择区分度高的特征。剪枝的关键是依据损失函数,剪枝消去过拟合的情况。

信息增益计算

李航统计学习方法

ID3生成树算法

李航统计学习方法

出4.5生成树算法

李航统计学习方法

决策树剪枝

李航统计学习方法
李航统计学习方法

CART算法

李航统计学习方法
李航统计学习方法

CART剪枝

李航统计学习方法