决策树随机森林
目录
决策树的过拟合
决策树对训练属于有很好的分类能力,但对 未知的测试数据未必有好的分类能力,泛化 能力弱,即可能发生过拟合现象。
解决的方法:剪枝,随机森林。
剪枝系数的确定
剪枝算法
Bootstraping
Bootstraping的名称来自成语“pull up by your own bootstraps”,意思是依靠你自己的资源,称为自助 法,它是一种有放回的抽样方法。
Bagging的策略
bootstrap aggregation
从样本集中重采样(有重复的)选出n个样本,在所有属性上,对这n个样本建立分类器(ID3、C4.5、CART、SVM、Logistic回归等)重复以上两步m次,即获得了m个分类器,将数据放在这m个分类器上,最后根据这m 个分类器的投票结果,决定数据属于哪一类。
随机森林
随机森林在bagging基础上做了修改。从样本集中用Bootstrap采样选出n个样本;从所有属性中随机选择k个属性,选择最佳分割 属性作为节点建立CART决策树;重复以上两步m次,即建立了m棵CART决策树,这m个CART形成随机森林,通过投票表决结果, 决定数据属于哪一类。
应用
一种可能的方案
样本不均衡的常用处理方法
使用RF建立计算样本间相似度
x1,x3在同叶节点中,即相似度大,x1,x3与x2相似度不大。
Isolation Forest
决策树分类鸢尾花数据
随机森林
决策树用于拟合
多输出的决策树回归