决策树算法_基本思想
核心思想:数据集划分,确定划分条件,得出一类一类的数据子集。
决策树学习的本质是从训练数据集上归纳出一组分类规则,通常采用启发式的方法,即局部最优。通常分为三个步骤:特征选择、决策树生成和决策树的修剪。
特征选择
- 特征的选择是要使经过划分后,不同分类的数据尽量分开。
- 划分后的分区数据越纯,当前的分裂规则就越合适。
衡量一个节点内的数据纯度有三种:
熵、基尼和方差。前两种是针对分类,方差是针对回归。
熵:
1)信息量
信息量由事件发生的概率所决定的。经常发生的事情没有什么信息量,只有小概率的事情才有信息量。
2)信息熵
其实就是期望
3)信息增益
4)信息增益比