机器学习技法-Random Forest
大纲
上节课我们主要介绍了Decision Tree模型。Decision Tree算法的核心是通过递归的方式,将数据集不断进行切割,得到子分支,最终形成数的结构。C&RT算法是决策树比较简单和常用的一种算法,其切割的标准是根据纯度来进行,每次切割都是为了让分支内部纯度最大。最终,决策树不同的分支得到不同的
Random Forest Algorithm
1 Recall: Bagging and Decision Tree
首先我们回顾一下上两节学的Bagging算法和Decision Tree算法
Bagging具有减少不同
而Decision Tree具有增大不同
所以说,Bagging能减小variance,而Decision Tree能增大variance。如果把两者结合起来,能否发挥各自的优势,起到优势互补的作用呢?这就是我们接下来将要讨论的aggregation of aggregation,即使用Bagging的方式把众多的Decision Tree进行uniform结合起来。这种算法就叫做随机森林(Random Forest),它将完全长成的C&RT决策树通过bagging的形式结合起来,最终得到一个庞大的决策模型。
2 Random Forest (RF)
下面是随机森林的算法
随机森林算法的优势是
可以高度并行,所以可以很高效的学习
继承了决策树本身自带的优点
-
将所有的决策树通过bagging的形式结合起来,避免了单个决策树造成过拟合的问题。
3 Diversifying by Feature Projection
因为随机森林是通过Bagging的方法把不同的决策树集成起来,所以不同的决策树之间如果存在分歧,那么我们集成得到的随机森林效果越好。我们接下来看一下如何让Random Forest中决策树的结构更有多样性。
我们上面提到过,随机森林算法中使用bootstrap的方法得到不同于
D 的D′ ,使用这些随机抽取的资料得到不同的gt 。另一方面,就是随机抽取一部分特征。例如,原来有100个特征,现在只从中随机选取30个来构成决策树,那么每一轮得到的树都由不同的30个特征构成,每棵树都不一样。假设原来样本维度是d,则只选择其中的d’(d’小于d)个维度来建立决策树结构。这类似是一种从d维到d’维的特征转换,相当于是从高维到低维的投影,也就是说d’维z空间其实就是d维x空间的一个随机子空间(subspace)。通常情况下,d’远小于d,从而保证算法更有效率。Random Forest算法的作者建议在构建C&RT每个分支b(x)的时候,都可以重新选择子特征来训练,从而得到更具有多样性的决策树。
4 Diversifying by Feature Expansion
上面我们讲的是随机抽取特征,除此之外,还可以将现有的特征x,通过向量
假如x特征是100维的,P矩阵是3*100维的,那么经过投影,就可以把100维的特征,投到3维。而且这3维的向量分别是原来特征的线性组合。这种方法使每次分支得到的不再是单一的子特征集合,而是子特征的线性组合(权重不为1)。好比在二维平面上不止得到水平线和垂直线,也能得到各种斜线。这种做法使子特征选择更加多样性。这种做法包括上面那种特征选择的做法,即上面那种做法是这种做法的个例
所以,这里的Random Forest算法又有增强,由原来的random-subspace变成了random-combination。顺便提一下,这里的random-combination类似于perceptron模型。
Out-Of-Bag Estimate
1 Bagging Revisited
上一部分我们已经介绍了Random Forest算法,而Random Forest算法重要的一点就是Bagging。接下来将继续探讨bagging中的bootstrap机制到底蕴含了哪些可以为我们所用的东西。
通过bootstrap得到新的样本集
首先,我们来计算OOB样本到底有多少。假设bootstrap的数量
由上述推导可得,每个
2 OOB versus Validation
在Validation表格中,蓝色的
这种做法我们并不陌生,就像是我们之前介绍过的Leave-One-Out Cross Validation,每次只对一个样本进行
3 Model Selection by OOB Error
这种self-validation相比于validation来说还有一个优点就是它不需要重复训练。如上图左边所示,在通过
Feature Selection
1 Feature Selection
如果样本资料特征过多,假如有10000个特征,而我们只想从中选取300个特征,这时候就需要舍弃部分特征。通常来说,需要移除的特征分为两类:
一类是冗余特征,即特征出现重复,例如“年龄”和“生日”;
另一类是不相关特征,例如疾病预测的时候引入的“保险状况”。
这种从d维特征到
特征选择的优点
高效,模型越简单,预测时间越快
泛化行比较好,可能特征中的噪声被移除了
去除无关特征,保留相关性大的特征,解释性强
特征选择的缺点
特征筛选的计算量大
不同的特征组合,也容易发生过拟合
容易选到无关特征,可解释性会变差
值得一提的是,在decision tree中,我们使用的decision stump切割方式也是一种feature selection。
2 Feature Selection by Importance
有一种思路是:如果我们可以获得每一维特征的重要性程度,那么我们可以根据特征的重要程度来选取最重要的特征
这种方法在线性模型中比较容易计算。因为线性模型的score是由每个特征经过加权求和而得到的,而加权系数的绝对值
然而,对于非线性模型来说,因为不同特征可能是非线性交叉在一起的,所以计算每个特征的重要性就变得比较复杂和困难。例如,Random Forest就是一个非线性模型,接下来,我们将讨论如何在RF下进行特征选择。
3 Feature Importance by Permutation Test
RF中,特征选择的核心思想是random test。random test的做法是对于某个特征,如果用另外一个随机值替代它之后的表现比之前更差,则表明该特征比较重要,所占的权重应该较大,不能用一个随机值替代。相反,如果随机值替代后的表现没有太大差别,则表明该特征不那么重要,可有可无。所以,通过比较某特征被随机值替代前后的表现,就能推断出该特征的权重和重要性。
那么random test中的随机值如何选择呢?通常有两种方法:一是使用uniform或者gaussian抽取随机值替换原特征;一是通过permutation的方式将原来的所有N个样本的第i个特征值重新打乱分布(相当于重新洗牌)。比较而言,第二种方法更加科学,保证了特征替代值与原特征的分布是近似的(只是重新洗牌而已)。这种方法叫做permutation test(随机排序测试),即在计算第i个特征的重要性的时候,将N个样本的第i个特征重新洗牌,然后比较D和D(p)表现的差异性。如果差异很大,则表明第i个特征是重要的。
4 Feature Importance in Original Random Forest
知道了permutation test的原理后,接下来要考虑的问题是如何衡量上图中的performance,即替换前后的表现。显然,我们前面介绍过performance可以用
Random Forest in Action
1 A Simple Data Set
最后,我们通过实际的例子来看一下RF的特点。首先,仍然是一个二元分类的例子。如下图所示,左边是一个C&RT树没有使用bootstrap得到的模型分类效果,其中不同特征之间进行了随机组合,所以有斜线作为分类线;中间是由bootstrap(
随着树木个数的增加,我们发现,分界线越来越光滑而且得到了large-margin-like boundary,类似于SVM一样的效果。也就是说,树木越多,分类器的置信区间越大。
2 A Complicated Data Set
可以看到,当RF由21棵树构成的时候,分界线就比较平滑了,而且它的边界比单一树构成的RF要robust得多,更加平滑和稳定。
3 A Complicated and Noisy Data Set
从上图中,我们发现21棵树的时候,随机noise的影响基本上能够修正和消除。这种bagging投票的机制能够保证较好的降噪性,从而得到比较稳定的结果。
4 How Many Trees Needed?
经过以上三个例子,我们发现RF中,树的个数越多,模型越稳定越能表现得好。在实际应用中,应该尽可能选择更多的树。值得一提的是,RF的表现同时也与random seed有关,即随机的初始值也会影响RF的表现。