82-使用信息熵寻找最优划分

使用信息熵寻找最优划分

  上一篇博客介绍了信息熵这样的指标,通过信息熵,我们可以知道当前数据的不确定度是怎样的,进而知道了对于我们的决策树来说,在根节点的时候(其实根节点就相当于拥有了全部的数据),我们要找到一个维度,一个阈值对根节点进行划分,划分之后,我们希望我们的数据整体信息熵是越来越低的,进而对划分出来的两个节点我们可以再用同样的方式去寻找特定的维度和阈值进行划分,使得整体的信息熵继续减小,以此类推,就形成了决策树。
  
  下面我们就模拟使用信息熵进行划分的方式。
  
82-使用信息熵寻找最优划分
82-使用信息熵寻找最优划分
82-使用信息熵寻找最优划分
82-使用信息熵寻找最优划分
82-使用信息熵寻找最优划分
82-使用信息熵寻找最优划分
  

  我们以信息熵作为指标尝试模拟,为决策树进行了划分。那么下一篇博客将会介绍另外一个划分指标:基尼系数。

  
  具体代码见 82 使用信息熵寻找最优划分.ipynb