机器学习笔记——集成学习

1、什么时候用集成学习？

集成学习有利于减少模型方差，因此当模型复杂度复杂度太高时可以用集成学习方法

参加kaggle等比赛的时候

2、bagging和boosting的基学习器有一样的特点？

bagging的基学习器更强一些，它们学习的对象都是目标任务，最终的预测模型是直接拿子模型的决策结果投票或者做平均；boosting的基学习器更弱一些，可以说是非常弱，它们学习的都只是目标任务的一部分（可以这么理解），即使自己的任务学习的很好，看起来也很弱，所以这种弱是相对整体学习任务而言的。

3、Adaboost算法

机器学习笔记——集成学习

为了把样本权重更新公式简化成一个，用at替换掉dt。

dt的推导：

机器学习笔记——集成学习

一个小例子：

机器学习笔记——集成学习

按照前面所述，这里的d貌似没有必要计算；而且，这里貌似用a同时作为样本和子模型的权重更新乘子。应该用a作为子模型的权重更新乘子，同时，对某个样本而言，其权重

更新公式为：

当样本被正确分类时

机器学习笔记——集成学习

当样本被误分类时

机器学习笔记——集成学习

或者合并为

机器学习笔记——集成学习

D表示所有样本的权重构成的向量。

4、为啥训练错误率已经为0了测试错误率还在下降？

机器学习笔记——集成学习

因为margin在增大，这使得模型越来越鲁棒

机器学习笔记——集成学习