推荐算法-GBDT与LR算法融合

什么是GBDT算法?

GBDT算法是boosting算法中的一种,这种算法的特点是,由多个弱分类算法组成,并且下级的弱分类器是依赖上级分类器的。

GBDT算法依赖CART算法

cart算法的目标是找到一个分割点使得分割后的两个子集合内部产生的方差要最小。公式如下:

推荐算法-GBDT与LR算法融合

通过上面的方式可以产生m个决策区域,而决策的过程其实就是根据输入条件找到符合条件的决策区域,该区域的平均值就是预测值。

GBDT算法的依赖于CART算法,但又不同于CART算法。

怎么说呢,GBDT算法树的形成过程是利用了和CART算法一样的原理,也就是找可以形成最小方差的分割点。

但是预测过程是不一样点的,GBDT是不断累积每层产生的残差得到的预测。

具体的GBDT算法介绍可以参考:https://blog.****.net/zpalyq110/article/details/79527653

GBDT算法为什么要与LR算融合使用呢?又是怎么融合使用的?

我们知道LR算法使用来做分类预测的,但是这个算法需要众多的特征作为输入条件。

而GBDT算法就可以帮助找到这样的特征组合,节省人工寻找特征组合的过程。

推荐算法-GBDT与LR算法融合

由上图所示,树的叶子节点将作为LR的特征向量,样本所落的叶子节点为1,其余的节点为0。通过上面的变化特征的维度表多了,数值化的数据也转化成了类别化的数据,有利于LR模型进行分类。

项目代码见下面的连接:

链接:https://pan.baidu.com/s/1di2c1NEr4qXLS8cQZVHiig 
提取码:gudq