决策树

决策树是最符合人类思考模式，最容易被理解和解释的模型之一，所以在一些需要可解释性的场景下经常使用，其训练过程相比其他机器学习算法也更加通俗易懂

训练过程

初始情况下生成一个根节点，所有的数据都在这一个节点之内。
寻找一个最能区分开不同类样本的最优划分属性，按照样本在该属性上取值的不同，分配到不同的下一级的子节点上。
如果某个节点上没有了样本或者可用来划分的属性或者样本都属于同一个类，则停止生成下一级节点，否则继续2中步骤生成更深的决策树。
每个叶节点被标记为该节点样本最多的那个类别，预测新样本时，从根节点开始判断新样本的各个属性值，最后落到的叶节点的类别就是预测得出的新样本类别

最优划分属性

最优划分属性存在一个发展历史，也是一些经典决策树算法的提出历史。

如最开始的ID3决策树，利用划分前后的信息增益作为标准选择最优划分属性。
决策树详解以及常见面试题
其中Ent为信息熵，Gain即为原节点不划分时的信息熵减去减去划分后节点带上样本个数权重的信息熵之和。

但是上述方法存在天生偏好，如果某个属性取值本来就很多，那么生成很多节点，节点的纯度就会比较高就特别容易被选取为划分属性。
所以之后又提出了C4.5决策树，利用信息增益率作为划分属性。
决策树详解以及常见面试题
相当于给信息增益除了一个该属性的一个固有值（取决于属性取值个数）来平衡这种影响。
当时上式又矫正过枉了，对于取值少的属性有偏好，虽然实际实现时采用一种启发式思想，先找出增益大于平均水平的，再在里面找增益率高，但总归不是那么美好，于是就有人提出了CART树，使用基尼指数作为评价指标。
一个数据集的纯度用基尼指数衡量的话，最直观的解释就是任选两个样本，它们属于不同类别的概率。决策树详解以及常见面试题
那么一个属性划分的好坏就可以看划分总结点的基尼指数带权中之和了，选择最小的当作划分属性。

连续和缺失值

连续值会根据样本出现的值情况计算出候选划分点进行划分。
出现缺失值的话，可以不考虑出现缺失的样本先进行计算划分属性的数值，再乘上这个属性的缺失比作为最终比较的数值。

剪枝操作

预剪枝

预剪枝很好理解，就是在决策树生成时候提前终止一些节点继续向下分裂，可能因为该次分裂对结果没有提升或者精度更低，这样使得决策树更加简单，泛化性能更好，时间开销小，但是因为有些分支没有展开，可能陷入局部最优解，带来欠拟合风险。

后剪枝

后剪枝即是在决策树生成之后，对一些分支进行修剪完成简化，把一些节点换成叶节点，阻断这条分支路径。该方法基于极小化决策树的损失函数。
决策树详解以及常见面试题
注意虽然出现了经验熵，但是第一项可以展开写成

可以看到里面一层和LR推导损失的形式几乎一致，所以决策树的损失函数应该为极大似然损失，先最大化每个节点的极大似然，再到整棵树的极大似然。