聚类算法_基础篇

为了后续方便复习,目前先记录下聚类算法中背后的数学原理,后期需配合《西瓜书》《统计学习方法》《机器学习实战》食用

Blending & bagging
  1. 主要介绍了blending和bagging的方法,它们都属于aggregation,即将不同的
    gt
    合并起来,利用集体的智慧得到更加优化的G(t)。Blending通常分为三种情况:Uniform Blending,Linear Blending和Any Blending。其中,uniform blending采样最简单的“一人一票”的方法,linear blending和any blending都采用标准的two-level learning方法,类似于特征转换的操作,来得到不同gtgt的线性组合或非线性组合。最后,我们介绍了如何利用bagging(bootstrap aggregation),从已有数据集D中模拟出其他类似的样本DtDt,而得到不同的gtgt,再合并起来,优化预测模型。

Adaptive boosting
  1. 主要介绍了Adaptive Boosting。首先通过讲一个老师教小学生识别苹果的例子,来引入Boosting的思想,即把许多“弱弱”的hypotheses合并起来,变成很强的预测模型。然后重点介绍这种算法如何实现,关键在于每次迭代时,给予样本不同的系数u,宗旨是放大错误样本,缩小正确样本,得到不同的小矩g。并且在每次迭代时根据错误ϵϵ值的大小,给予不同gtgt不同的权重。最终由不同的gtgt进行组合得到整体的预测模型G。实际证明,Adaptive Boosting能够得到有效的预测模型。

Decision Tree
  1. 主要介绍了Decision Tree。首先将decision tree hypothesis对应到不同分支下的矩gt(x)gt(x)。然后再介绍决策树算法是如何通过递归的形式建立起来。接着详细研究了决策树C&RT算法对应的数学模型和算法架构流程。最后通过一个实际的例子来演示决策树C&RT算法是如何一步一步进行分类的。

GBDT & XGBOOST

机器学习算法中GBDT和XGBOOST的区别有哪些? (请参考该回答下的PPT文件,熟悉GBDT 与 XGBOOST的推导)



1 - blending & bagging

聚类算法_基础篇


2 - AdaBoost(Adaptive Boosting)

聚类算法_基础篇


3 - Decision tree

聚类算法_基础篇