非线性分类——决策树
今天我们来讲非线性分类器。
为什么要使用非线性分类器呢?因为有时候数据未必是线性可分的。常见的非线性方法有:
- 线性扩展的思想
- 线性扩展模型。即把非线性数据通过一个非线性转换,变为新的数据分布,并且这些数据符合线性分布。这样就可以使用线性方法进行分类处理。
- 核函数方法。
2.非线性的思想
- 最近邻
- k近邻
- 决策树
- 神经网络
- 集成学习
决策树
决策树的目标:产生一棵泛化能力强的决策树。
决策树的基本流程符合分而治之(divide-and-conquer)策略。它的生成是一个递归过程。
一棵决策树包含一个根节点、若干内部节点和若干叶节点。叶节点对应决策结果。
决策树的关键是如何选择最优划分属性,也即如何设置问题。一般而言,随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高。