RapidMiner介绍与实践(三)K-Means
前言
前两篇介绍了利用RapidMiner利用决策树算法、贝叶斯分类器对golf数据进行简单的预测分析,当然由于数据集的有限,模型预测结果就是各种惨不忍睹,所以……今天更多是关注于K-Means算法在rapidminer中如何实践。
K-Means算法基本理解
K-Means又称K-平均数,计算标准为距离平均数。计算过程如下。
之前,非常机缘巧合看到有关K-Means算法可视化的程序。感觉对算法的理解有所帮助。可以浏览:K-means可视化 byGeorge
可能不是很方便浏览可以直接看代码,即https://github.com/silverme/KMeans/blob/master/index.html
利用RapidMiner实践K-Means
数据:Sample>data>iris
直接双击iris数据可以浏览到:数据内容及相关可视化分析
依据标记好数据,可以将数据分为三类,在可视化过程中,其实可以看到有两类是处于一种比较接近的状态,如果没有颜色区分,就像是一类一样,所以可以留意之后的分类结果。
检索如下图所示的算子进行流程构建。
rename算子主要是因为rapidminer中提供的关于iris数据集属性都是a_1这样的形式,不知道实际代表的结果,所以在网上了解数据集收集内容后,直接对将属性进行改名。
select attribute算子功能主要是选择所要的属性内容。
**注意:**算子相连过程中上个算子输出与下个算子的输入是要对应的,不然就会存在流程不通过的结果,如下图注意”Clustering“与”cluster distance performance “之间相连。
rename算子参数设置:
select attribute算子参数设置:
cluster distance performance算子参数设置:
Davies Bouldin标准用于判断分类效果,数值越小效果越好。用于判断k值到底取多少合适。
结果输出:
当K设置为3时,Davies Bouldin衡量结果为-0.422
当k为5时,Davies Bouldin衡量结果为-0.211,结果比k为三时大,效果没有那么好。
但当k为2时,Davies Bouldin衡量结果为-0.879,更小结果更好。
这也是算法本身性质(根据距离分类)导致的分类结果。
暂时关于RapidMiner的实践介绍就先到这里,网上也有一些关于apriori关联分析的rapidminer实践,所以就不写类似的重复内容了。其实,也是因为自己对这个软件理解还有很多不足,还是需要继续取学习,希望有一日能够继续更新这个系列的文章吧。就酱~
RapidMiner介绍与实践(一)决策树
RapidMiner介绍与实践(二)贝叶斯分类器
RapidMiner介绍与实践(三)K-Means