决策树

决策树（decision tree）是一种基本的分类与回归方法，此处主要讨论分类的决策树。

决策树学习的算法通常是一个递归地选择最优特征(选择方法的不同，对应着不同的算法)，并根据该特征对训练数据进行分割，使得各个子数据集有一个最好的分类的过程。这一过程对应着对特征空间的划分，也对应着决策树的构建。下面为一个实例图：

决策树

构造流程：

1）开始：构建根节点，将所有训练数据都放在根节点，选择一个最优特征，按着这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类。

2）如果这些子集已经能够被基本正确分类，那么构建叶节点，并将这些子集分到所对应的叶节点去。

3）如果还有子集不能够被正确的分类，那么就对这些子集选择新的最优特征，继续对其进行分割，构建相应的节点，如果递归进行，直至所有训练数据子集被基本正确的分类，或者没有合适的特征为止。

4）每个子集都被分到叶节点上，即都有了明确的类，这样就生成了一颗决策树。

决策树的特点：

优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。
缺点：可能会产生过度匹配的问题
适用数据类型：数值型和标称型

其中常用的分类树算法有ID3、C4.5、CART

下面是一些信息论的知识

l 信息熵(information entropy)

熵(entropy)是表示随机变量不确定性的度量，设X是一个取有限值的离散随机变量，其概率分布为：

决策树

则随机变量X的熵定义为：

决策树

熵越大，随机变量的不确定性越大；也就是H(X)越小，随机变量的X的纯度越高。

l 信息增益(information gain)

训练数据集D采用特征a进行划分之后的信息增益Gain(D,a)为:

决策树

其中

决策树

l 信息增益率(information gain
ratio)

特征a对训练数据集D的信息增益Gain_ratio(D,a)定义为其信息增益Gain(D,a)与训练数据集D关于特征a的值的熵IV(a)之比，即

决策树

其中

代表以属性a进行划分，第V类的子集数量。

l 基尼指数(Gini index)

基尼指数Gini(D)表示集合D不确定性，基尼指数Gini(D,a)表示集合D经A=a分割后的不确定性(类似于熵)，基尼指数越小，样本的不确定性越小。分类问题中，假设有K个类，样本点属于第k类的概率为pk,则概率分布的基尼指数定义为

决策树

显然，Gini反映了在样本中随机抽取两个样本，其标记不一样的概率，因此基尼指数越小，数据集D的纯度越高。也就是说选择使得划分后基尼指数最小的属性作为最有划分属性。例如对于属性a，其基尼指数为：

决策树

下面分别阐述ID3、C4.5、CART算法

决策树