<机器学习>---决策树---补充

本篇是在李航老师的《统计学习方法》的决策树基础上补充周志华老师的《机器学习》西瓜书的一点内容。

1.连续值处理:

当特征属性可取连续值的时候,就出现这个问题了。比如西瓜的含糖率,密度值这样的特征属性。

但其实,我们可以获取的样本,他们在连续属性上的取值都只是一个确定的值了。因此, 假定17样本,就会有17个(或者小于17,因为可能取值相同了,这里就假使17个不同的a特征的取值),按照取值从小到大的顺序排序: a1 a2 a3 ......a17 。        序列中间有16个间隔,每个间隔取一个值,这个值是两相邻值的平均值,例:a1 a2 之间取一个均值a12, a12作为a1 a2 的间隔值。依次类推,可得到16个新的a的特征取值,把这16个值作为a特征的所有可能取值,就可以和之前的离散特征取值一样生成决策树了。

<机器学习>---决策树---补充


<机器学习>---决策树---补充


<机器学习>---决策树---补充






2.对缺失值的处理:

缺失值是表示,获取的训练样本,的一些特征下的具体取值未知。如:

<机器学习>---决策树---补充

补救方法:


<机器学习>---决策树---补充


以色泽为例,<机器学习>---决策树---补充为17 -3=14(即色泽那一列没有“—”的样本个数)

然后计算规则如下:

<机器学习>---决策树---补充


<机器学习>---决策树---补充


<机器学习>---决策树---补充



然后,处理缺失的特征值怎么归类:

<机器学习>---决策树---补充

一般wx是初始化为1的。


<机器学习>---决策树---补充

wx*rv 





多变量决策树。。。。没太看懂,明白后再来补充。。。欢迎指正!