机器学习【二】决策树
所有数据最终分到了叶子节点上。
数据根据每个特征分类是将数据切了一刀。
训练:从给定数据中构造出一颗决策树(选择特征)
测试:将构造的树模型从上到下走一遍
问题在于树的构造?
如何切分特征(怎样选择节点)
问题:许多特征该选用哪一个特征作为根节点,然后第二个节点的选择该用哪个特征
解决方法:通过一个衡量标准,来计算通过不同的特征进行分支选择后的分类情况,找出最好的那个作为根节点,以此类推。
衡量标准---熵
熵:就是随机变量不确定性的度量,不确定性越高熵越大。
(说白了就是物体内部混乱程度,手机市场拥有各种手机,熵高,苹果手机专卖店只有一种手机,熵低)
公式:
当p=0或p=1时,H(p)=0,随机变量完全没有不确定性
当p=0.5时,H(p)=1此时不确定性最大
信息增益:特征X使得类Y的不确定性减少的程度。(分类后的专一性,希望分类后同类在一起)
例子:
单独只根据信息增益进行特征的选择会出现问题,比如多了一个ID特征,每个数据都有各自不同的ID,它的熵值为0,纯净度最大,信息增益也最大但是这个特征是无用得,不具有泛化能力。
采用信息增益率解决这个问题,信息增益除以自身的熵。
基尼指数越接近0越纯净。
决策树剪枝策略: