机器学习Task2基于决策树的分类预测

决策树是一种常见的分类模型

1、信息熵函数
给定一个标定的数据集X计算数据集中信息量的大小
H(X)=-∑(i=1→n)p(xi)log₂p(xi)
2、决策树执行流程
机器学习Task2基于决策树的分类预测
3、Demo实践
机器学习Task2基于决策树的分类预测
机器学习Task2基于决策树的分类预测
机器学习Task2基于决策树的分类预测
4、基于且数据集的决策树实战
在实践的最开始,我们首先需要导入一些基础的函数库包括:numpy (Python进行科学计算的基础软件包),pandas(pandas是一种快速,强大,灵活且易于使用的开源数据分析和处理工具),matplotlib和seaborn绘图。
本次我们选择企鹅数据(palmerpenguins)进行方法的尝试训练,该数据集一共包含8个变量,其中7个特征变量,1个目标分类变量。共有150个样本,目标变量为 企鹅的类别 其都属于企鹅类的三个亚属,分别是(Adélie, Chinstrap and Gentoo)。包含的三种种企鹅的七个特征,分别是所在岛屿,嘴巴长度,嘴巴深度,脚蹼长度,身体体积,性别以及年龄。
机器学习Task2基于决策树的分类预测
TIPS:
1、决策树构建的伪代码
机器学习Task2基于决策树的分类预测
决策树的构建过程是一个递归过程。函数存在三种返回状态:(1)当前节点包含的样本全部属于同一类别,无需继续划分;(2)当前属性集为空或者所有样本在某个属性上的取值相同,无法继续划分;(3)当前节点包含的样本集合为空,无法划分。
2、决策树的关键在于line6.从 ???? 中选择最优划分属性 ????∗ ,一般我们希望决策树每次划分节点中包含的样本尽量属于同一类别,也就是节点的“纯度”更高。
3、信息增益:
信息熵是一种衡量数据混乱程度的指标,信息熵越小,则数据的“纯度”越高
机器学习Task2基于决策树的分类预测
机器学习Task2基于决策树的分类预测
4、基尼指数
机器学习Task2基于决策树的分类预测