决策树

一、决策树原理

（参考文献：周志华《机器学习》清华大学出版社）

决策树使用类似流程图是树形结构对样本进行分类。一般地，一颗决策树包含一个根节点、若干内部节点和若干叶子节点。非叶子节点对应于一个属性的测试，叶子节点对应于决策结果。从树的根节点（包含样本全集）开始，从属性集中选择一个属性测试，然后按照给定实例的属性值确定对应的分支，根据属性测试的结果将样本分到对应的子结点中，使用过的属性从属性集中去掉。不断重复该过程，直到满足以下3种情况结束递归返回结果：①当前结点包含的样本属于同一类，无需继续划分，将该结点标记为叶子节点；②属性集为空，或者样本在属性集的所有属性上取值一样，无法继续划分；将当前结点设为叶子结点，类别设定投票进行（那个类别的样本最多就设为那个类别）；③当前结点包含样本数为0；将当前结点标记为叶子结点，类别设定由其父节点投票决定（父节点那个类别的样本最多就将该节点设为那个类别）。

算法关键之一：如何选择最优的划分属性，下面介绍几种常见的算法。

二、ID3算法

（该部分转载自：https://www.cnblogs.com/starfire86/p/5749328.html）

ID3算法，即Iterative Dichotomiser 3，迭代二叉树3代，是J R Quinlan提出的一种决策树算法。特点是引入信息论中互信息的概念，他将之称为信息增益（information gain），以它作为属性选择的标准。

在信息增益中，重要性的衡量标准就是看特征能够为分类系统带来多少信息，带来的信息越多，该特征越重要。在认识信息增益之前，先来看看信息熵的定义熵这个概念最早起源于物理学，在物理学中是用来度量一个热力学系统的无序程度，而在信息学里面，熵是对不确定性的度量。在1948年，香农引入了信息熵，将其定义为离散随机事件出现的概率，一个系统越是有序，信息熵就越低，反之一个系统越是混乱，它的信息熵就越高。所以信息熵可以被认为是系统有序化程度的一个度量。

假如一个随机变量决策树的取值为，每一种取到的概率分别是，那么的熵定义为