五 分类 其他分类技术6

5.6 组合方法

5.6.1 组合方法基本原理

组合分类器性能优于单个分类器必须满足:(1)基分类器之间互相独立(2)基分类器应当好于随机猜测分类器

5.6.2 构造组合分类器的方法

五 分类 其他分类技术6
构造组合分类器的几种方法:
1.处理训练数据集,对原始数据进行再抽样来得到多个训练集。袋装和提升
2.处理输入特征,随机森林
3.处理类标号,错误-纠正输出编码
4.处理学习算法
五 分类 其他分类技术6

5.6.3偏倚-方差分解

偏倚-方差分解是分析预测模型的预测误差的形式化方法。
将分类器的期望误差分解为分类的偏倚、方差、噪声。
偏倚:在训练数据集时,分类器的决策边界性质决定了分类结果与目标分类结果的偏差,即偏倚
方差:受训练数据可变性影响,训练集合的不同成分可能导致不同的决策边界
噪声:目标类的不确定性
偏倚和方差取决于使用分类器的类型,噪声取决于目标类性质

5.6.4 袋装

一种根据均匀概率分布从数据集中重复抽样(有放回)的技术。
五 分类 其他分类技术6
五 分类 其他分类技术6

5.6.5 提升

迭代,自适应改变训练样本的分布,使得基分类器聚焦于那些很难分的样本。
提升给每一个训练样本赋予一个权值,而且在每一轮提升过程结束时自动调整权值。
权值用处:用作抽样分布;基分类器通过使用权值学习
提升基本算法思想:
(1)所有样本被赋予相同权值,所以被选作训练样本的概率一样。
(2)根据训练样本的抽样分布抽取样本,得到新的样本集。
(3)由该训练集归纳一个分类器,并对原始数据集所有样本进行分类。
(4)然后根据分类的结果,增加错误分类的样本权值,减小被正确分类的样本权值,这样每次迭代就会更加关注那些很难分类迭代样本。
不同点:每轮提升如何更新训练样本的权值;如何组合每个分类器的预测结果

AdaBoost

在AdaBoost算法中,基分类器的重要性依赖于错误率:
五 分类 其他分类技术6
基分类器的重要性参数:
五 分类 其他分类技术6
重要性参数也被用来更新训练样本的权值:
五 分类 其他分类技术6
最后,AdaBoost算法将每一个分类器的预测值根据重要性参数进行加权,而不是使用多数表决的方法。
五 分类 其他分类技术6
注:提升技术很容易受过分拟合的影响

5.6.6 随机森林

为决策树分类器设计的组合方法
五 分类 其他分类技术6