机器学习笔记十之聚类
本节目录:
- 无监督学习
- K-均值聚类
- 优化目标
- 随机初始化
- 选择聚类树
1 无监督学习
无监督学习,即让计算机学习无标签数据。
上边的一系列点,没有任何标签信息,我们需要的是找到一个算法,让它为我们找找这个数据的内在结构,以上图数据为例,也就是把他们分成两个分开的点集。
这个能够找到圈出这些点集的算法 就是聚类算法。
无监督学习算法用于市场分割、社交网络分析等。
2.K-均值聚类算法
该算法接受一个未标记的数据集,然后将数据聚类成不同组。
K-均值是一个迭代算法,假设我们想要将数据聚类成 n 个组,其方法为:
(1)首先选择????个随机的点,称为聚类中心(cluster centroids);
(2)对于数据集中的每一个数据,按照距离????个中心点的距离,将其与距离最近的中心点关联起来,与同一个中心点关联的所有点聚成一类。
(3)计算每一个组的平均值,
(4)将该组所关联的中心点移动到平均值的位置。
重复步骤 2-4 直至中心点不再变化。
下面是聚类示例:
3 优化目标
4 随机初始化
5 选择聚类数
没有所谓最好的选择聚类数的方法,通常是需要根据不同的问题,人工进行选择的。选择的时候思考我们运用 K-均值算法聚类的动机是什么,然后选择能最好服务于该目的标聚类数。
当人们在讨论,选择聚类数目的方法时,有一个可能会谈及的方法叫作“肘部法则”。关 于“肘部法则”,我们所需要做的是改变????值,也就是聚类类别数目的总数。我们用一个聚类来运行 K 均值聚类方法。这就意味着,所有的数据都会分到一个聚类里,然后计算成本函数或者计算畸变函数????。
????代表聚类数字。
我们可能会得到一条类似于这样的曲线。像一个人的肘部。这就是“肘部法则”所做的,
让我们来看这样一个图,看起来就好像有一个很清楚的肘在那儿。好像人的手臂,如果你伸
出你的胳膊,那么这就是你的肩关节、肘关节、手。这就是“肘部法则”。你会发现这种模式,
它的畸变值会迅速下降,从 1 到 2,从 2 到 3 之后,你会在 3 的时候达到一个肘点。在此之
后,畸变值就下降的非常慢,看起来就像使用 3 个聚类来进行聚类是正确的,这是因为那个
点是曲线的肘点,畸变值下降得很快,???? = 3之后就下降得很慢,那么我们就选???? = 3。当你
应用“肘部法则”的时候,如果你得到了一个像上面这样的图,那么这将是一种用来选择聚类
个数的合理方法。