集成方法(Ensemble Method)—总括
A、集成学习概述
集成学习在机器学习算法中具有较高的准去率,不足之处是模型的训练过程可能较为复杂,效率不是很高。
基于Boosting(提升方法) |
Adaboost(Adaptive Boosting 自适应增强) GBDT(Gradient Boost Decision Tree 梯度提升决策树) XGBooST(eXtreme Gradient Boosting 极端梯度提升 ) |
基于Bagging(袋装方法) |
随机森林(bagging是bootstrap aggregating的缩写) |
基于Stacking(堆叠方法) |
二者之间的差异:boosting—>1、训练集的选择是独立的,各轮训练集的选择与前面各轮的学习结果有关。
2、各个预测函数间有权重
3、各个预测函数只能顺序生成。
4、各个弱学习器之间有依赖关系
bagging—>1、训练集的选择是随机的,各轮训练集之间相互独立.
2、各个预测函数没有权重
3、各个预测函数可以并行生成
4、各个弱学习器之间没有依赖关系,可以并行拟合。
(Bagging,Boosting二者之间的区别
1)样本选择上:
Bagging:训练集是在原始集中有放回选取的,从原始集中选出的各轮训练集之间是独立的.
Boosting:每一轮的训练集不变,只是训练集中每个样例在分类器中的权重发生变化.而权值是根据上一轮的分类结果进行调整.
2)样例权重:
Bagging:使用均匀取样,每个样例的权重相等
Boosting:根据错误率不断调整样例的权值,错误率越大则权重越大.
3)预测函数:
Bagging:所有预测函数的权重相等.
Boosting:每个弱分类器都有相应的权重,对于分类误差小的分类器会有更大的权重.
4)并行计算:
Bagging:各个预测函数可以并行生成
Boosting:各个预测函数只能顺序生成,因为后一个模型参数需要前一轮模型的结果.)
B、集成学习的主要思想
集成学习是利用一定的手段学习出多个分类器,而且这多个分类器要求是弱分类器,然后将多个分类器进行组合公共预测。
核心思想是如何训练出多个弱分类器以及如何将这些弱分类器进行组合。(Ensemble的方法就是组合许多弱模型(weak learners,预测效果一般的模型) 以得到一个强模型(strong learner,预测效果好的模型)。Ensemble中组合的模型可以是同一类的模型,也可以是不同类型的模型。)
C、集成学习法的特点
a.将多个分类方法聚集在一起,以提高分类的准确率;b.集成学习法由训练数据构建一组基分类器,然后通过对每个基分类器的预测进行投票来进行分类;c.严格的来说,集成学习并不算是一种分类器,而是一种分类器结合的方法;d.通常一个集成分类器的分类性能会好于单个分类器;e.如果把单个分类器比作一个决策者的话,集成学习的方法就相当于多个决策者共同进行一项决策。
D、集成学习法的重要点
a.怎么训练每一个算法? b.怎么融合每一个算法?