《机器学习》周志华 集成学习

8.1个体集成

        个体学习器可以由  C4.5决策树算法  BP神经网络等  来训练。

        个体学习器(同质)---->叫基学习器(也叫弱学习器---指泛化性能略优于随机猜测的学习器,如二分类问题上精度略高于50%的分类器)  相应的算法叫做  基学习算法。

        个体学习器(异质)----->叫组件学习器或者直接称为个体学习器。

        (理论上来说)对“弱学习器”,将多个学习器结合,常可获得比单一学习器显著优越的泛化性能 。

        (实践中来说)常用的学习器“好而不同“,即个体学习器要有一定的”准确性“,学习器不能太坏,并且要有”多样性“,学习器之间要有差异。

        而且基于分类器的错误率相互独立的假设,由Hoeffding不等式,我们推断出了随着集成中个体分类器的数目T的增大,集成的错误率将指数级下降,最终趋于0。但这是基于个体分类器相互独立的前提下做出的判断,实际中的个体学习器是为解决一个问题训练出来的,他们显然不可能相互独立!事实上,个体学习器的”准确性“和”多样性“本来就存在冲突。    如何产生并结合”好而不同“的学习器是集成学习研究的核心

        集成学习的分类(按照个体学习器的生成方式)可分为

        {1.个体学习器间存在强依赖关系、必须串行生成的序列化方法。------>Boosting

        2.个体学习器间不存在强依赖关系、可同时生成的并行化方法。------>Bagging和”随机森林“}

8.2Boosting

        基本思想:1.先从初始训练集训练出一个基学习器。

                         2.再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受                             到更多关注。

                         3.然后基于调整后的样本分布来训练下一个基学习器。

                         4.重复上边2,3步,直到基学习器的数目达到事先指定的值T。

                         5.最后将T个基学习器进行加权结合。


《机器学习》周志华 集成学习


《机器学习》周志华 集成学习

《机器学习》周志华 集成学习

《机器学习》周志华 集成学习

《机器学习》周志华 集成学习

《机器学习》周志华 集成学习

《机器学习》周志华 集成学习

《机器学习》周志华 集成学习

《机器学习》周志华 集成学习

《机器学习》周志华 集成学习

《机器学习》周志华 集成学习

《机器学习》周志华 集成学习

《机器学习》周志华 集成学习

《机器学习》周志华 集成学习

《机器学习》周志华 集成学习

《机器学习》周志华 集成学习

《机器学习》周志华 集成学习