《机器学习》周志华 集成学习
8.1个体集成
个体学习器可以由 C4.5决策树算法 BP神经网络等 来训练。
个体学习器(同质)---->叫基学习器(也叫弱学习器---指泛化性能略优于随机猜测的学习器,如二分类问题上精度略高于50%的分类器) 相应的算法叫做 基学习算法。
个体学习器(异质)----->叫组件学习器或者直接称为个体学习器。
(理论上来说)对“弱学习器”,将多个学习器结合,常可获得比单一学习器显著优越的泛化性能 。
(实践中来说)常用的学习器“好而不同“,即个体学习器要有一定的”准确性“,学习器不能太坏,并且要有”多样性“,学习器之间要有差异。
而且基于分类器的错误率相互独立的假设,由Hoeffding不等式,我们推断出了随着集成中个体分类器的数目T的增大,集成的错误率将指数级下降,最终趋于0。但这是基于个体分类器相互独立的前提下做出的判断,实际中的个体学习器是为解决一个问题训练出来的,他们显然不可能相互独立!事实上,个体学习器的”准确性“和”多样性“本来就存在冲突。 如何产生并结合”好而不同“的学习器是集成学习研究的核心。
集成学习的分类(按照个体学习器的生成方式)可分为
{1.个体学习器间存在强依赖关系、必须串行生成的序列化方法。------>Boosting
2.个体学习器间不存在强依赖关系、可同时生成的并行化方法。------>Bagging和”随机森林“}
8.2Boosting
基本思想:1.先从初始训练集训练出一个基学习器。
2.再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受 到更多关注。
3.然后基于调整后的样本分布来训练下一个基学习器。
4.重复上边2,3步,直到基学习器的数目达到事先指定的值T。
5.最后将T个基学习器进行加权结合。