什么是XGbbost

XGBoost是Extreme Gradient Boosting的简称，对应的模型就是一堆CART树，思想是将每棵树的预测值加到一起作为最终的预测值(可谓简单粗暴)。

下图就是CART树和一堆CART树的示例，用来判断一个人是否会喜欢计算机游戏：
XGBoost理解

XGBoost理解

图二说明了如何用一堆CART树做预测，就是简单将各个树的预测分数进行相加。

注：gboost为什么使用CART树而不是用普通的决策树呢？
简单讲，对于分类问题，由于CART树的叶子节点对应的值是一个实际的分数，而非一个确定的类别，这将有利于实现高效的优化算法。

XGboost的数学模型

y^= \sum k = 1 K f k (x i), f k \in F

其中，K为树的棵数，F表示所有可能的CART树，f_k表示一棵具体的CART树。

XGBoost模型的目标函数

o b j (θ) = \sum i n l (y i, y^i) + \sum k = 1 K Ω (f k)

其中，第一部分是损失函数，第二部分是正则化项（由K棵树的正则化项相加而来）。

训练XGBoost

知道了XGBoost模型和目标函数后，我们的任务就是通过最小化目标函数来找到最佳的参数组。

上面我们提到xgboost模型由一堆CART树组成，参数自然存在于每棵CART树之中。那么，就单一的 CART树而言，它的参数是什么呢？

根据上面对CART树的介绍，我们知道，确定一棵CART树需要确定两部分，第一部分就是树的结构，这个结构负责将一个样本映射到一个确定的叶子节点上，其本质上就是一个函数。第二部分就是各个叶子节点上的分数。

似乎遇到麻烦了，你要说叶子节点的分数作为参数，还是没问题的，但树的结构如何作为参数呢？而且我们还不是一棵树，而是K棵树!

让我们想像一下，如果K棵树的结构都已经确定，那么整个模型剩下的就是所有K棵树的叶子节点的值，模型的正则化项也可以设为各个叶子节点的值的平方和。此时，整个目标函数其实就是一个K棵树的所有叶子节点的值的函数，我们就可以使用梯度下降或者随机梯度下降来优化目标函数。现在这个办法不灵了，必须另外寻找办法。

加法训练

所谓加法训练，本质上是一个元算法，适用于所有的加法模型，它是一种启发式算法。运用加法训练，我们的目标不再是直接优化整个目标函数，这已经被我们证明是行不通的。而是分步骤优化目标函数，首先优化第一棵树，完了之后再优化第二棵树，直至优化完K棵树。整个过程如下图所示：

XGBoost理解

在第t步时，我们添加了一棵最优的CART树ft，这棵最优的CART树ft是怎么得来的呢？非常简单，就是在现有的t-1棵树的基础上，使得目标函数最小的那棵CART树，如下图所示：
XGBoost理解

假如我们使用的损失函数时MSE，那么上述表达式会变成这个样子

这个式子非常漂亮，因为它含有ft(xi)的一次式和二次式，而且一次式项的系数是残差。你可能好奇，为什么有一次式和二次式就漂亮，因为它会对我们后续的优化提供很多方便，继续前进你就明白了。
注意：ft(xi)是什么？它其实就是ft的某个叶子节点的值。之前我们提到过，叶子节点的值是可以作为模型的参数的。

但是对于其他的损失函数，我们未必能得出如此漂亮的式子，所以，对于一般的损失函数，我们需要将其作泰勒二阶展开，如下所示：
XGBoost理解
其中，

这里有必要再明确一下，gi和hi的含义。gi怎么理解呢？现有t-1棵树是不是？这t-1棵树组成的模型对第i个训练样本有一个预测值y^i是不是？这个y^i与第i个样本的真实标签yi肯定有差距是不是？这个差距可以用l(yi,y^i)这个损失函数来衡量是不是？现在gi和hi的含义你已经清楚了是不是？

来，答一个小问题，在优化第t棵树时，有多少个gi和hi要计算？嗯，没错就是各有N个，N是训练样本的数量。如果有10万样本，在优化第t棵树时，就需要计算出个10万个gi和hi。感觉好像很麻烦是不是？但是你再想一想，这10万个gi之间是不是没有啥关系？是不是可以并行计算呢？聪明的你想必再一次感受到了，为什么xgboost会辣么快！

好，现在我们来审视下这个式子，哪些是常量，哪些是变量。式子最后有一个constant项，聪明如你，肯定猜到了，它就是前t-1棵树的正则化项。l(yi, yi^t-1)也是常数项。剩下的三个变量项分别是第t棵CART树的一次式，二次式，和整棵树的正则化项。再次提醒，这里所谓的树的一次式，二次式，其实都是某个叶子节点的值的一次式，二次式。

我们的目标是让这个目标函数最小化，常数项显然没有什么用，我们把它们去掉，就变成了下面这样：
XGBoost理解
好，现在我们可以回答之前的一个问题了，为什么一次式和二次式显得那么漂亮。因为这些一次式和二次式的系数是gi和hi，而gi和hi可以并行地求出来。而且，gi和hi是不依赖于损失函数的形式的，只要这个损失函数二次可微就可以了。这有什么好处呢？好处就是xgboost可以支持自定义损失函数，只需满足二次可微即可。强大了我的哥是不是？

模型正则化项

上面的式子已然很漂亮，但是，后面的Ω(ft)仍然是云遮雾罩，不清不楚。现在我们就来定义如何衡量一棵树的正则化项。这个事儿并没有一个客观的标准，可以见仁见智。为此，我们先对CART树作另一番定义，如下所示：
XGBoost理解
需要解释下这个定义，首先，一棵树有T个叶子节点，这T个叶子节点的值组成了一个T维向量w，q(x)是一个映射，用来将样本映射成1到T的某个值，也就是把它分到某个叶子节点，q(x)其实就代表了CART树的结构。w_q(x)自然就是这棵树对样本x的预测值了。
有了这个定义，xgboost就使用了如下的正则化项：
XGBoost理解

注意：这里出现了γ和λ，这是xgboost自己定义的，在使用xgboost时，你可以设定它们的值，显然，γ越大，表示越希望获得结构简单的树，因为此时对较多叶子节点的树的惩罚越大。λ越大也是越希望获得结构简单的树。

为什么xgboost要选择这样的正则化项？很简单，好使！效果好才是真的好。

见证奇迹的时刻

至此，我们关于第t棵树的优化目标已然很清晰，下面我们对它做如下变形，请睁大双眼，集中精力：
XGBoost理解
这里需要停一停，认真体会下。Ij代表什么？它代表一个集合，集合中每个值代表一个训练样本的序号，整个集合就是被第t棵CART树分到了第j个叶子节点上的训练样本。理解了这一点，再看这步转换，其实就是内外求和顺序的改变。如果感觉还有困难，欢迎评论留言。

进一步，我们可以做如下简化：

XGBoost理解
其中的Gj和Hj应当是不言自明了。

对于第t棵CART树的某一个确定的结构（可用q(x)表示），所有的Gj和Hj都是确定的。而且上式中各个叶子节点的值wj之间是互相独立的。上式其实就是一个简单的二次式，我们很容易求出各个叶子节点的最佳值以及此时目标函数的值。如下所示：
XGBoost理解
obj*代表了什么呢？
它表示了这棵树的结构有多好，值越小，代表这样结构越好！也就是说，它是衡量第t棵CART树的结构好坏的标准。注意~注意~注意~，这个值仅仅是用来衡量结构的好坏的，与叶子节点的值可是无关的。为什么？请再仔细看一下obj*的推导过程。obj*只和Gj和Hj和T有关，而它们又只和树的结构(q(x))有关，与叶子节点的值可是半毛关系没有。如下图所示：

XGBoost理解

找出最优的树结构

好了，有了评判树的结构好坏的标准，我们就可以先求最佳的树结构，这个定出来后，最佳的叶子结点的值实际上在上面已经求出来了。

问题是：树的结构近乎无限多，一个一个去测算它们的好坏程度，然后再取最好的显然是不现实的。所以，我们仍然需要采取一点策略，这就是逐步学习出最佳的树结构。这与我们将K棵树的模型分解成一棵一棵树来学习是一个道理，只不过从一棵一棵树变成了一层一层节点而已。如果此时你还是有点蒙，没关系，下面我们就来看一下具体的学习过程。
我们以上文提到过的判断一个人是否喜欢计算机游戏为例子。最简单的树结构就是一个节点的树。我们可以算出这棵单节点的树的好坏程度obj*。假设我们现在想按照年龄将这棵单节点树进行分叉，我们需要知道：
1、按照年龄分是否有效，也就是是否减少了obj的值
2、如果可分，那么以哪个年龄值来分。

为了回答上面两个问题，我们可以将这一家五口人按照年龄做个排序。如下图所示：

XGBoost理解

按照这个图从左至右扫描，我们就可以找出所有的切分点。对每一个确定的切分点，我们衡量切分好坏的标准如下：
XGBoost理解

这个Gain实际上就是单节点的obj*减去切分后的两个节点的树obj*，Gain如果是正的，并且值越大，表示切分后obj*越小于单节点的obj*，就越值得切分。同时，我们还可以观察到，Gain的左半部分如果小于右侧的γ，则Gain就是负的，表明切分后obj反而变大了。γ在这里实际上是一个临界值，它的值越大，表示我们对切分后obj下降幅度要求越严。这个值也是可以在xgboost中设定的。

扫描结束后，我们就可以确定是否切分，如果切分，对切分出来的两个节点，递归地调用这个切分过程，我们就能获得一个相对较好的树结构。

注意：xgboost的切分操作和普通的决策树切分过程是不一样的。普通的决策树在切分的时候并不考虑树的复杂度，而依赖后续的剪枝操作来控制。xgboost在切分的时候就已经考虑了树的复杂度，就是那个γ参数。所以，它不需要进行单独的剪枝操作。

大功告成

最优的树结构找到后，确定最优的叶子节点就很容易了。我们成功地找出了第t棵树！撒花！！！

参考文章：
https://www.jianshu.com/p/7467e616f227

XGBoost理解

什么是XGbbost

XGboost的数学模型

XGBoost模型的目标函数

训练XGBoost

加法训练

模型正则化项

见证奇迹的时刻

找出最优的树结构

大功告成

相关推荐