决策树——信息熵,条件熵,信息增益

1、信息熵

信息熵是度量样本集的纯合度的一种常用的指标,熵值越大,随机变量的不确定性越高。

比如:

  •   {0,0,01,1,1,1}
  • {1,2,3,4,5,6,7}

在这两组数据中,上面的数据的不确定性要小,只有两种可能性,抽中的数字2的概率为1/2。所以其熵值就低

下面的那组数据的不确定性就要大,每个数字抽中的概率都要小。所以其熵值要高,不确定性就越大。

 

信息熵公式:          

          决策树——信息熵,条件熵,信息增益

计算信息熵实例:

数据如下图

    决策树——信息熵,条件熵,信息增益

计算嫁与不嫁的信息熵:可以看出不嫁的概率为:1/2,嫁的概率也为1/2。

由信息熵的公式计算得到:-1/2log1/2-1/2log1/2 = -log1/2=0.301。

2、条件熵

条件熵就是在某一条件下,随机变量的不确定(复杂)的程度。

条件熵公式:

                决策树——信息熵,条件熵,信息增益

计算实例:

   由上图的数据可知,身高这个特征的值有(高,中,矮);

   其中矮一共有7个,其中嫁有1个,不嫁有6个

   中的有2个,其中嫁有2个,不嫁0个

   高的有三个,其中嫁的有3个,不嫁0个

由条件熵的公式可得:矮:H(嫁不嫁|矮)=-1/7log1/7-6/7log6/7=0.178;

                                     中:H(嫁不嫁|中)=-1log1-0 = 0;

                                     高  :H(嫁不嫁|高)=-1log1-0 = 0;

所以可得出条件熵为:7/12*0.178+2/12*0+3/12*0=0.103;

3、信息增益

信息增益=信息熵-条件熵。也就是说信息增益就是在某一条件下,信息熵(条件的复杂度)减少的程度。

所以有上面计算的结果得知:0.301-0.1.3=0.198。得知身高后的信息增益为0.198.

4、总结

由上面计算的数据的推出的结论,女嘉宾在不知道任何信息的条件的会选择嫁给男嘉宾的不确定性为0.301,在得知了男嘉宾的身高之后会选择嫁给男嘉宾的不确定性为0.103,比在得知男嘉宾的身高之前不确定下降了0.198.