Automated Variable Weighting in k-Means Type Clustering
本内容整理自 Automated Variable Weighting in k-Means Type Clustering
这篇文章主要的创新点在于–给予特征向量的每个维度一个权重,称之为W-k-Means的方法。该方法主要用于数据挖掘和统计学中的特征筛选。
原始的K-means聚类方法不足之处在于,如果数据集当中混有大量随机噪音(也就是特征向量中有若干维在聚类过程中是不起作用的,反而会对结果产生干扰)的情况下,不能很好的对其进行聚类,即使是原数据集有很好的簇结构的情况下。
数据集如上图所示,本来有很好的簇结构,但是在加入一组随机噪音之后,很明显的就破坏了原先的簇结构,若再用K-means聚类方法恐怕就很难得到理想的结果了。那么此时就要用该论文中提到的W-K-means方法进行聚类了。
1.W-K-means的思想
在原始K-Means的基础上,给予特征向量的每个维度一个权重。这样,对于噪音所在的维度来说,其权重就应该很小,这要整体的代价才会降到最低。
2.代价函数
K-means:
W-K-means:
3.求解参数
迭代的计算步骤,同K-mean算法一样(戳此处),只是在计算的时候带上权重值即可。而问题的关键在于如何求解权重.这篇论文用到的方法是拉格朗日乘数法来求解参数的。
4.实现