机器学习之Python决策树基础

1. 决策树与线性模型

树形模型是一个一个特征进行处理，线性模型是所有特征给予权重相加得到一个新的值。

决策树是一种机器学习的方法。决策树是一种树形结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果。

决策树是一种十分常用的分类方法，属于有监督学习（Supervised Learning）。所谓有监管学习，就是给出一堆样本，每个样本都有一组属性和一个分类结果，也就是分类结果已知，那么通过学习这些样本得到一个决策树，这个决策树能够对新的数据给出正确的分类。
机器学习之Python决策树基础

比较常用的决策树算法有ID3，C4.5和CART（Classification And Regression Tree），CART的分类效果一般优于其他决策树。

ID3划分数据的依据
ID3算法是以信息熵和信息增益作为衡量标准的分类算法。

1. 信息熵(Entropy)：

熵的概念主要是指信息的混乱程度，变量的不确定性越大，熵的值也就越大，熵的公式可以表示为：

其中，是类别在样本中出现的频率。

2. 信息增益(Information gain)：

信息增益指的是划分前后熵的变化，可以用下面的公式表示：

其中，代表样本的属性，代表属性所有的取值集合，是属性的一个属性取值，是中的值为的样例集合。
机器学习之Python决策树基础