《人工智能工程师》回归树模型

回归树模型初步

当数据不是离散型变量而是数值或者连续值时,可以用回归树模型进行划分。回归树模型的本质是对样本空间的划分。划分的区域不相交的子区域。

回归树模型的构建方法

《人工智能工程师》回归树模型

注意:区域Rj中的样本的结果是所有的样本点取平均得到的结果。RSS的偏差,这个是指预估结果和真实结果的差异。yi是真实值,yRj是指预估值(最小二分法)。为什么计算量大?空间划分有n种,那n种划分方式都要这么做就很难了。

那么,要找到一个可行方法:递归二分法。

自顶向下的贪婪式递归方案:递归二分法

《人工智能工程师》回归树模型

那么,RSS同时会满足划分的两边的偏差最小。并且只考虑现在划分的两个区域。

回归树剪枝

回归树也会有过拟合的风险,需要做剪枝。

解决方法:添加正则量。

《人工智能工程师》回归树模型

当树长得时候,叶子节点会越来越多。那么,公式左边是负责拟合度,右边负责泛化。α是超参数,通过交叉验证去选择。