基尼系数、熵、信息增益、信息增益率

熵

熵是事件不确定性的度量，如果事件无不确定性，则熵为0，不确定性越大，熵越大

条件熵

在一个条件下，随机变量的不确定性

信息增益

信息增益 = 熵 - 条件熵
表示在一个条件下，信息不确定性减少的程度
缺点：信息增益偏向取值较多的特征

信息增益率

本质：是在信息增益的基础之上乘上一个惩罚参数。特征个数较多时，惩罚参数较小；特征个数较少时，惩罚参数较大。
惩罚参数：数据集D以特征A作为随机变量的熵的倒数，即：将特征A取值相同的样本划分到同一个子集中
缺点：信息增益比偏向取值较少的特征
原因：当特征取值较少时HA(D)的值较小，因此其倒数较大，因而信息增益比较大。因而偏向取值较少的特征

基尼系数

表示在样本集合中一个随机选中的样本被分错的概率，代表了模型的不纯度，衡量不确定性的大小,基尼系数越小，则不纯度越低，特征越好。这和信息增益(比)是相反的

为什么用基尼系数不用熵？

因为熵log运算耗时

参考文章
参考文章1

基尼系数、熵、信息增益、信息增益率

相关推荐