机器学习之集成学习(一)Ensemble Learning
一、集成学习概述
集成学习通过构建并结合多个学习器来完成学习任务。通过将多个学习器结合,常可以获得比单一学习器显著优越的泛化性能,达到博采众长的目的。1、如何训练每个学习器?
2、如何融合各个学习器?
二、个体学习器
要获得好的学习器,个体学习器应“好而不同”,即个体学习器要有一定的准确性,并且要有多样性。根据个体学习器包含的类型,可分为同质个体学习器和异质个体学习器。集成中可以只包含同种类型的个体学习器,如决策树、神经网络,这样的集成是同质的,同质集成中的个体学习器亦称“基学习器”,相应的学习算法称为“基学习算法”。集成也可以包含不同类型的个体学习器,如同时包含决策树和神经网络,这样的集成是异质的,个体学习器常称为“组件学习器”。目前同质个体学习器的应用岁最广泛的,一般提到集成学习都是指同质个体学习器,而同质个体学习器使用最多的模型是CART决策树和神经网络。
根据个体学习器的生成是否存在依赖关系,可以分为两类。个体学习器间存在强依赖关系,必须串行生成,代表算法是boosting系列算法;个体学习器之间不存在强依赖关系,可以并行生成,代表算法是bagging和随机森林系列算法。
三、集成学习之Boosting
Boosting系列算法里最著名的算法包括AdaBoost算法和提升树 (boosting tree)系列算法,提升树系列算法里应用最广泛的是梯度提升树 (Gradient Boosting Tree)。
四、集成学习之Bagging
随机森林是Bagging的一个特化进阶版,特化是因为随机森林的弱学习器都是决策树,进阶是因为随机森林在Bagging的样本随机采样基础上,又加上了特征的随机选择,其基本思想没有脱离Bagging的范畴。
五、集成学习之结合策略
假设得到T个弱学习器是5.1 平均法
对于数值类的回归预测问题,通常使用平均法,也就是对T个弱学习器的输出进行平均得到最终的预测输出。- 算术平均法
- 加权平均法
5.2 投票法
对于分类问题的预测,通常使用投票法。假设预测类别是- 相对多数投票法
- 绝对多数投票法
- 加权投票法
5.3 学习法
前两种方法比较简单,但是学习误差可能较大。当训练数据很多时,一种更为强大的结合策略是学习法,即通过另一个学习器进行结合。学习法的代表方法是stacking。使用stacking结合策略时,先从初始数据集中训练出初级学习器,然后生成一个新数据集用于训练次级学习器,此时将弱学习器的学习结果作为输入。