[阅读笔记]《统计学习方法》李航著:Chp5 决策树
[阅读笔记]《统计学习方法》李航著:Chp5 决策树
本章概要
5.1 决策树模型与学习
- 损失函数:正则化的极大似然函数,策略:最小化损失函数
- 树的生成停止条件:
- 所有训练数据子集都被基本正确分类
- 没有合适的特征
- 可能产生过拟合现象因此需要剪枝
- 决策树的生成考虑局部最优,剪枝则考虑全局最优
5.2 特征选择
- Why:特征数量很多,通过选择留下对训练数据有足够分类能力的特征
- How/准则:信息增益、信息增益比
5.3 决策树的生成
- ID3:信息增益,只有树的生成易过拟合
- C4.5:信息增益比
5.4 决策树的剪枝
- 可以在局部进行,因此可以用动态规划算法实现
5.5 CART算法
- 假设决策树为二叉树
- 生成:生成的树尽可能大;回归树-平方误差最小化;分类树-基尼指数最小化
- 剪枝:用验证数据集对已生成的树进行剪枝并选择最优子树,准则——损失函数最小