关于决策树的信息增益(信息熵)

1.前言

决策树学习的关键是如何选择最优划分属性,一般而言,随着划分过程的不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一个类别,即结点的‘纯度’(purity)越来越高。所以我们引入信息熵的概念,来度量样本集合的纯度。


2.信息增益

关于决策树的信息增益(信息熵)

关于决策树的信息增益(信息熵)

关于决策树的信息增益(信息熵)

关于决策树的信息增益(信息熵)

关于决策树的信息增益(信息熵)

关于决策树的信息增益(信息熵)

关于决策树的信息增益(信息熵)

关于决策树的信息增益(信息熵)


3.增益率

在上面的介绍中,我们有意忽略了表4.1中的‘编号’一栏,若把‘编号’也作为一个候选划分属性,则根据公式计算出它的信息增益为0.998,远大于其他划分属性,这很容易理解,‘编号’将产生17个分支,每个分支结点仅包含一个样本,这些结点的纯度已经达到最大,然而这样的决策树显然不具备这样的泛化能力,无法对新样本进行有效预测。

关于决策树的信息增益(信息熵)

关于决策树的信息增益(信息熵)

关于决策树的信息增益(信息熵)


4.基尼系数

关于决策树的信息增益(信息熵)

关于决策树的信息增益(信息熵)