机器学习中的集成学习模型实战完整讲解

2019-12-03 13:50:23

集成学习模型实践讲解

——沂水寒城

无论是在机器学习领域还是深度学习领域里面，通过模型的集成来提升整体模型的性能是一件非常有效的事情，当前我们所接触到的比较成熟的四大集成框架主要包括：Bagging、Boosting、Stacking和Blending。对于初学者来说前两种思想或者是框架可能是会比较耳熟能详的，而后两种如果没有接触到的话可能会觉得比较陌生，我也是读了研究生以后才接触到Stacking和Blending的，思想还是比较好理解的，效果也是蛮不错的，这里简单温习一下这三种集成学习策略。下面是我博客里面的一下基础知识，贴出来仅做参考：

1、Bagging

Bagging的个体弱学习器的训练集是通过随机采样得到的。通过T次有放回的随机采样，我们就可以得到T个采样集，对于这T个采样集，我们可以分别独立的训练出T个弱学习器，再对这T个弱学习器通过集合策略来得到最终的强学习器。随机森林是Bagging的一个特化进阶版，所谓的特化是因为随机森林的弱学习器都是决策树。所谓的进阶是随机森林在Bagging的样本随机采样基础上，又加上了特征的随机选择，其基本思想没有脱离Bagging的范畴。Bagging原理示意图如下所示：

机器学习中的集成学习模型实战完整讲解

2、Boosting

Boosting算法的工作机制是首先从训练集用初始权重训练出一个弱学习器1，根据弱学习的学习误差率表现来更新训练样本的权重，使得之前弱学习器1学习误差率高的训练样本点的权重变高，使得这些误差率高的样本在后面的弱学习器2中得到更多的重视。然后基于调整权重后的训练集来训练弱学习器2.，如此重复进行，直到弱学习器数达到事先指定的数目T，最终将这T个弱学习器通过集合策略进行整合，得到最终的强学习器。Boosting系列算法里最著名算法主要有AdaBoost算法和GBDT提升树(boosting tree)系列算法。原理示意图如下所示：

机器学习中的集成学习模型实战完整讲解

3、Stacking

Stacking也是一种模型融合的方法。首先，直接用所有的训练数据对第一层多个模型进行k折交叉验证，这样每个模型在训练集上都有一个预测值，然后将这些预测值做为新特征对第二层的模型进行训练，stacking两层模型都使用了全部的训练数据。Stacking模型是指将多种分类器组合在一起来取得更好表现的一种集成学习模型。一般情况下，Stacking模型分为两层。第一层中我们训练多个不同的基础模型，然后再以第一层训练的各个模型的输出作为输入来训练第二层的模型，以得到一个最终的输出。

Stacking原理示意图如下图所示：

机器学习中的集成学习模型实战完整讲解

4、Blending

Blending设计思想与Stacking类似，对于一般的Blending，主要思路是把原始的训练集先分成两部分，比如70%的数据作为新的训练集，剩下30%的数据作为测试集。第一层我们在这70%的数据上训练多个模型，然后去预测那30%数据的label。在第二层里，我们就直接用这30%数据在第一层预测的结果做为新特征继续训练即可。从这里我们可以看到Stacking和Blending模型在构建过程中最明显的差别就是Stacking的两层训练都是用的全部数据，而Blending是使用的部分数据。

学习了基础的理论知识后，下面进入到实践环节。首先是数据集的创建，具体实现如下：

机器学习中的集成学习模型实战完整讲解