试将对缺失值的处理机制推广到基尼指数的计算中去

试将对缺失值的处理机制推广到基尼指数的计算中去

基尼指数的定义

  1. 基尼值:用于描述数据集的纯度,Gini(D)越小说明数据集D的纯度越高

试将对缺失值的处理机制推广到基尼指数的计算中去
其中,p_k是指样本集合D中第k类样本所占的频率。

  1. 属性a的基尼指数:

试将对缺失值的处理机制推广到基尼指数的计算中去

  1. 在候选属性集合A中,选择那个使得划分后基尼指数最小的属性作为最优划分属性。即

试将对缺失值的处理机制推广到基尼指数的计算中去
基于基尼指数算法处理缺失值
(参考了《机器学习》——周志华)
试将对缺失值的处理机制推广到基尼指数的计算中去基于上述定义,我们将基尼指数的计算式推广为
试将对缺失值的处理机制推广到基尼指数的计算中去