[阅读笔记]《统计学习方法》李航著:Chp5 决策树

[阅读笔记]《统计学习方法》李航著:Chp5 决策树

本章概要

[阅读笔记]《统计学习方法》李航著:Chp5 决策树
[阅读笔记]《统计学习方法》李航著:Chp5 决策树
[阅读笔记]《统计学习方法》李航著:Chp5 决策树

5.1 决策树模型与学习

  • 损失函数:正则化的极大似然函数,策略:最小化损失函数
  • 树的生成停止条件:
    1. 所有训练数据子集都被基本正确分类
    2. 没有合适的特征
  • 可能产生过拟合现象因此需要剪枝
  • 决策树的生成考虑局部最优,剪枝则考虑全局最优

5.2 特征选择

  • Why:特征数量很多,通过选择留下对训练数据有足够分类能力的特征
  • How/准则:信息增益、信息增益比

5.3 决策树的生成

  • ID3:信息增益,只有树的生成易过拟合
  • C4.5:信息增益比

5.4 决策树的剪枝

  • 可以在局部进行,因此可以用动态规划算法实现

5.5 CART算法

  • 假设决策树为二叉树
  • 生成:生成的树尽可能大;回归树-平方误差最小化;分类树-基尼指数最小化
  • 剪枝:用验证数据集对已生成的树进行剪枝并选择最优子树,准则——损失函数最小