决策树分裂

什么是决策树

举个校园相亲的例子，今天校园的小猫(女)和小狗(男)准备配对，小猫如何才能在众多的优质????的心仪的狗呢？于是呢？有一只特乖巧的小猫找到了你，你正在学习机器学习，刚好学习了决策树，准备给这只猫猫挑选优质狗，当然，你不仅仅是直接告诉猫哪些狗是合适你的？你更应该详细的给猫讲解决策树是如何根据它提出的标准选出的符合要求的狗呢？
猫给出如下信息：
年龄<0.5 不心仪；年龄大于>=0.5 6.5<=体重<=8.5;心仪; 年龄>=0.5 体重>8.5 长相好心仪;其余情况不心仪; 根据上述条件可以构造一颗树：

决策树分裂

上面的图就是决策树，最终的结果是心仪或者不心仪。决策树算法以树形结构表示数据分类的结果

基本概念

决策树属于也只能非参数学习算法、可以用于解决(多)分类问题，回归问题。回归问题的结果，叶子结点的平均值是回归问题的解。
根节点：决策树具有数据结构里面的二叉树、树的全部属性
非叶子节点：（决策点）代表测试的条件，数据的属性的测试
叶子节点：分类后获得分类标记，最后没有异议条件的节点
分支：测试的结果

训练算法

基于信息熵的构造

当选择某个特征作为节点时，我们就希望这个特征的信息熵越小越好，那么不确定性越小

决策树分裂

njnj: 第j个类别，在样本中出现的频数
SS: 样本个数
对于离散属性，直接计算信息熵，连续属性，就需要划分区间，按区间计算信息熵。

基于某一层的数据集 a. 遍历计算所有属性，遍历相应属性以不同值为分截点的信息熵 b. 选择信息熵最小的作为节点
如果到达终止条件，返回相应信息，否则，按照分支重复步骤1

ID3算法：信息增益最大化

决策树分裂

决策树构建过程：

1、将所有训练数据集放在根节点上；

2、遍历每种属性的每种分割方式，找到最好的分割点；

3、根据2中最好的分割点将根节点分割成多个子节点（大于等于2个）；

4、对剩下的样本和属性重复执行步骤2、3，直到每个子节点中的数据都属于同一类为止。

C4.5算法：

C4.5算法是采用信息增益率来进行节点的分裂的，公式为：决策树分裂 ,

其中决策树分裂 , ,

而决策树分裂 , ,并且要求信息增益率越大越好。

下面举例具体计算，如下图为各种天气下是否打高尔夫球的表格。

Day	Outlook	Temperature	Humidity	Windy	Play Golf
1	Sunny	85	85	F	N
2	Sunny	80	90	T	N
3	Overcast	83	78	F	Y
4	Rainy	70	96	F	Y
5	Rainy	68	80	F	Y
6	Rainy	65	70	T	N
7	Overcast	64	65	T	Y
8	Sunny	72	95	F	N
9	Sunny	69	70	F	Y
10	Rainy	75	80	F	Y
11	Sunny	75	70	T	Y
12	Overcast	72	90	T	Y
13	Overcast	81	75	F	Y
14	Rainy	71	80	T	N