随机森林
现在看我当时中科院人工智能学院面试时随机森林大部分说错了。我现在可以大体说出随机森林怎么弄的了,当然前提要理解决策树,建议去看周志华西瓜书里写的,非常详细,很不错。
想想为什么要用随机森林,我以前想的集成学习是就是各个检测器各自分别检测,然后综合看他们的结果,比如10个里面有6个判定为异常就认为是异常,我以前就是这么单纯简单理解的,我感觉也没什么毛病啊。所以为什么要用集成学习呢。说不出为什么可能因为集成学习也是个黑箱(周志华讲集成学习那一章最后一段话就是说集成学习也是黑箱),你只知道它效果好但是说不出为什么,为什么要用集成学习。
不对,集成学习其实也是多个检测器投票,随机森林其实就是多个决策树检测器投票嘛,只是它的检测器是决策树,而一个决策树里实际上集成了多个检测器。每一个节点就是一个检测器。是这么个结构。
裴丹他们是弄出了上百个异常特征,想想这组成一个决策树是相当庞大的啊。裴丹14个检测器,因为每种检测器可以有不同的参数配置,所以这样算法来可以看作有133个检测器,是这么个意思。其实我的话就想把HTM加进去,HTM其实也是有不同的参数配置,你自己用过HTM studio你自己清楚的嘛,这样也好理解而很多。
随机森林的随机体现在对训练样本和特征向量的分量都进行了随机采样《机器学习与应用》雷明
bagging好像就只是训练样本上随机,但是特征分量上没用随机,这是随机森林和bagging不同的地方。随机森林对bagging做了小改动。
集成学习泛化性能好,正好异常检测也是要有普适性
森林的意思应该就是多个决策树。
正因为有了这些随机性,随机森林可以在一定程度上消除过拟合,对样本进行采样是必须的,如果不进行采样,每次都用完整的训练样本集训练出来的多颗树是相同的。
每次运行的结果一般会不同因为随机森林具有随机性。
下面摘抄一个写得比较好的,可能比看理论书籍快些。
这篇也不错,感觉****上还是有些写得不错的,甚至感觉比七月在线写得要好些。更让人容易理解。特别是那些收藏量高访问量高的文章。