机器学习之Python决策树基础

决策树与线性模型、逻辑回归的区别

   1. 决策树与线性模型

   树形模型是一个一个特征进行处理,线性模型是所有特征给予权重相加得到一个新的值。

决策树是一种机器学习的方法。决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。

       决策树是一种十分常用的分类方法,属于有监督学习(Supervised Learning)。所谓有监管学习,就是给出一堆样本,每个样本都有一组属性和一个分类结果,也就是分类结果已知,那么通过学习这些样本得到一个决策树,这个决策树能够对新的数据给出正确的分类。
机器学习之Python决策树基础

 

常用决策树算法:       

       比较常用的决策树算法有ID3,C4.5和CART(Classification And Regression Tree),CART的分类效果一般优于其他决策树。

ID3划分数据的依据
      ID3算法是以信息熵和信息增益作为衡量标准的分类算法。

      1. 信息熵(Entropy):

 

熵的概念主要是指信息的混乱程度,变量的不确定性越大,熵的值也就越大,熵的公式可以表示为:

                                 

                                            

其中,是类别在样本中出现的频率。

       2. 信息增益(Information gain):

 

信息增益指的是划分前后熵的变化,可以用下面的公式表示:

                             

 

其中,代表样本的属性,代表属性所有的取值集合,是属性的一个属性取值,是中的值为的样例集合。
机器学习之Python决策树基础