五分类其他分类技术6

5.6 组合方法

5.6.1 组合方法基本原理

组合分类器性能优于单个分类器必须满足：（1）基分类器之间互相独立（2）基分类器应当好于随机猜测分类器

5.6.2 构造组合分类器的方法

五分类其他分类技术6
构造组合分类器的几种方法：
1.处理训练数据集，对原始数据进行再抽样来得到多个训练集。袋装和提升
2.处理输入特征，随机森林
3.处理类标号，错误-纠正输出编码
4.处理学习算法

5.6.3偏倚-方差分解

偏倚-方差分解是分析预测模型的预测误差的形式化方法。
将分类器的期望误差分解为分类的偏倚、方差、噪声。
偏倚：在训练数据集时，分类器的决策边界性质决定了分类结果与目标分类结果的偏差，即偏倚
方差：受训练数据可变性影响，训练集合的不同成分可能导致不同的决策边界
噪声：目标类的不确定性
偏倚和方差取决于使用分类器的类型，噪声取决于目标类性质

5.6.4 袋装

一种根据均匀概率分布从数据集中重复抽样（有放回）的技术。
五分类其他分类技术6

5.6.5 提升

迭代，自适应改变训练样本的分布，使得基分类器聚焦于那些很难分的样本。
提升给每一个训练样本赋予一个权值，而且在每一轮提升过程结束时自动调整权值。
权值用处：用作抽样分布；基分类器通过使用权值学习
提升基本算法思想：
(1)所有样本被赋予相同权值，所以被选作训练样本的概率一样。
(2)根据训练样本的抽样分布抽取样本，得到新的样本集。
(3)由该训练集归纳一个分类器，并对原始数据集所有样本进行分类。
(4)然后根据分类的结果，增加错误分类的样本权值，减小被正确分类的样本权值，这样每次迭代就会更加关注那些很难分类迭代样本。
不同点：每轮提升如何更新训练样本的权值；如何组合每个分类器的预测结果