回归树
回归树,就是用树模型做回归问题,每一片叶子都输出一个预测值。预测值一般是叶子结点所含训练集输出的均值。
回归树的分支标准:标准方差(Standard Deviation)
。
回归树使用某一特征将原集合分为多个子集,用标准方差衡量子集中的元素是否接近,越小表示越接近。
首先计算根节点标准方差:
使用标准方差来确定分支,以计算Outlook分支后的标准方差为例:
同理可计算其他特征的标准差,并得到方差的减小值:
标准差降低最多的特征是Outlook,利用其进行分支。
接下来,重复这个过程,使用标准方差降低最多的特征进行分支。直到满足某个停止条件,如:
- 当某个分支的变化系数小于某个值(10%)
- 当前节点包含的元素个数小于某个值(3)
使用Outlook分支以后,值为Overcast的分支的变化系数太小(8%),小于我们设置的最小值(10%),停止继续在Overcast对应的分支上继续分支,生成一个叶子结点
再来看Sunny分支和Rainy分支
最终的创建回归树结构如下