机器学习之非监督学习
机器学习之非监督学习
一、非监督学习介绍
利用无标签的数据学习数据的分布或数据与数据之间的关系被称作无监督学习。
- 有监督学习和无监督学习的最大区别在于数据是否有标签。
- 无监督学习最常应用的场景是:
聚类 (clustering)
降维 (Dimensional Reduction)假设函数:
hθ(⋅)
希望:hθ(x(i))=x(i)
二、k-means 算法
K-Means 的算法如下:
(A,B,C,D,E是五个图中点,而灰色点是种子点。)[1] 随机在图中取K(如K=2)个种子点。
[2] 然后计算对图中的所有点到这K个种子点的距离(如欧式距离),假如点
Pi 离种子点Si最近,那么Pi 属于Si 点群。(图中可以看到A,B属于上面的种子点;C,D,E属于下面中部的种子点)[3] 接下来,我们要移动种子点到属于他的“点群”的中心。(见图的第3步)
[4] 然后重复第 [2] 和第 [3] 步,直到,种子点没有移动。(可以看到图中的第4步上面的种子点聚合了A,B,C;下面的种子点聚合了D,E)
三、最近邻算法
- (nearest neighbor methods)
- KNN,k-Nearest Neighbor,就是K最近邻算法。之前写的博客总结过,回顾点 这里。
四、决策树算法
- (decision trees)
- 决策树算法在机器学习中是很经典的一个算法系列。
- 它既可以作为分类算法,也可以作为回归算法,同时也适合集成学习(比如随机森林)。
- 决策树根据一步步地属性分类可以将整个特征空间进行划分,从而区别出不同的分类样本。
- 举例:一位母亲在给女儿介绍对象时,有这么一个决策思路。
- 这个相亲决策过程就是典型的分类决策树。相当于对年龄、外貌、收入和是否公务员等特征,将男人分为两个类别:见或者不见。
参考:http://blog.****.net/tangyudi/article/details/77822212
五、集成学习算法
- (ensemble methods)
- 通过聚集多个分类器的预测来提高分类准确率。
合并模型的两种方式:
随机森林:(random forest,RF),个体学习器间不存在强依赖关系、可同时生成的并行化方法。
boosting:个体学习器间存在强依赖关系、必须串行生成的序列化方法。
Boosting可以将弱学习器提升为强学习器的方法。工作机理:先从初始训练集中训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续收到更多关注,然后基于调整后的训练样本来训练下一个基学习器;如此重复进行,直至基学习器的数目达到指定值,最终将这
T 个基学习器进行加权调整。
六、结语
奥卡姆剃刀 原则:
如果你有两个类似的解决方案,选择简单的那个。把事情变复杂很简单,把事情变简单很复杂。
奥卡姆剃刀定律告诉我们:万事万物应该尽量简单,而不是更简单。(爱因斯坦)
化繁为简本身很难,人在江湖,身不由己。很多事情其实都是简单的,最后何尝不是被人自己搞复杂的。可叹我侠客行之狗哥,一个从小被遗弃的孩子,机遇巧合成了一帮之主,遵循奥卡姆剃刀法则,依照简单练成了侠客岛上的神功。