基尼系数、熵、信息增益、信息增益率

熵是事件不确定性的度量,如果事件无不确定性,则熵为0,不确定性越大,熵越大基尼系数、熵、信息增益、信息增益率

条件熵

在一个条件下,随机变量的不确定性
基尼系数、熵、信息增益、信息增益率

信息增益

信息增益 = 熵 - 条件熵
表示在一个条件下,信息不确定性减少的程度
缺点:信息增益偏向取值较多的特征

信息增益率

本质是在信息增益的基础之上乘上一个惩罚参数。特征个数较多时,惩罚参数较小;特征个数较少时,惩罚参数较大。
惩罚参数:数据集D以特征A作为随机变量的熵的倒数,即:将特征A取值相同的样本划分到同一个子集中基尼系数、熵、信息增益、信息增益率
缺点:信息增益比偏向取值较少的特征
原因: 当特征取值较少时HA(D)的值较小,因此其倒数较大,因而信息增益比较大。因而偏向取值较少的特征

基尼系数

表示在样本集合中一个随机选中的样本被分错的概率,代表了模型的不纯度,衡量不确定性的大小,基尼系数越小,则不纯度越低,特征越好。这和信息增益(比)是相反的
基尼系数、熵、信息增益、信息增益率

为什么用基尼系数不用熵?

因为熵log运算耗时

参考文章
参考文章1