机器学习(五)监督学习---集成学习基本概念
集成学习基本了解
基本概念: 给定我们一个原始训练样本集,我们将其拆分为多份,分别对每份样本集建立一个分类器(一般是弱分类器),分类器之间相互独立,最后再将分类器进行结合,因此 集成学习 有时候被称为 多分类器系统。
1. 为什么需要集成学习
- 弱分类器:精度不高,比随机分类略好一些,学习起来很方便;
- 强分类器:精度很高,但是优化起来非常复杂。
其实强弱是相对来说,能够迅速正确的识别的过程就是强分类器,而容易出错的则是弱分类器。强分类器可以由多个弱分类器组成。而集成学习就能将多个弱分类器转化为一个强分类器。
Eg. 举个例子来说明集成学习的好处
上图可以看出,最后的结果采用投票的方式(少数服从多数),所以有13个分类器输出错误,那么最后结果也会出错,因此整个系统的错误率如上式,最后得出错误率为6%;本来个体分类器正确率只有65%,最后结合后正确率达到94%。
※ 目前集成学习方法大致可分为两类:
-
Boosting(十大经典算法之一)
1.1 Adaboost
1.2 GBDT(Gradient Boosting Decision Tree) -
Bagging
2.1 Bootstrap Aggregating
2.2 Random Forest
2. Bagging
给定一个训练数据集,然后对训练样本进行采样,产生多个不同的子集,再从每个子集中训练出一个基学习器。如果采样出来的每个子集都完全不同,说明每个基学习器只用到了一小部分数据,显然得到的基学习器效果不会太好。为解决这个问题,采用相互有交叠的采样子集。
Bagging如何采样: 先随机采样一个样本放入采样集中,取出后再放回到初始数据集,接着进行下次的随机采样,即有放回的采样。
上图的Function可以是线性回归、决策树等等。
对于投票方式也有以下几种:
解析:
- Majority Voting:这五个分类器输出的概率C2最大占3个,所以C2=3;
- Weighted Majority Voting:这五个分类器输出的概率C2最大占3个,将这3个的权重相加作为结果,所以C2=0.25+0.20+0.10=0.55;
- Weighted Average:C1=0.30×0.85+0.25×0.3+0.20×0.2+0.10×0.1+0.15×0.1=0.395。