RapidMiner介绍与实践（三）K-Means

前言

前两篇介绍了利用RapidMiner利用决策树算法、贝叶斯分类器对golf数据进行简单的预测分析，当然由于数据集的有限，模型预测结果就是各种惨不忍睹，所以……今天更多是关注于K-Means算法在rapidminer中如何实践。

K-Means算法基本理解

K-Means又称K-平均数，计算标准为距离平均数。计算过程如下。
RapidMiner介绍与实践（三）K-Means
之前，非常机缘巧合看到有关K-Means算法可视化的程序。感觉对算法的理解有所帮助。可以浏览：K-means可视化 byGeorge
可能不是很方便浏览可以直接看代码，即https://github.com/silverme/KMeans/blob/master/index.html

利用RapidMiner实践K-Means

数据：Sample>data>iris

直接双击iris数据可以浏览到：数据内容及相关可视化分析
RapidMiner介绍与实践（三）K-Means
依据标记好数据，可以将数据分为三类，在可视化过程中，其实可以看到有两类是处于一种比较接近的状态，如果没有颜色区分，就像是一类一样，所以可以留意之后的分类结果。

检索如下图所示的算子进行流程构建。
rename算子主要是因为rapidminer中提供的关于iris数据集属性都是a_1这样的形式，不知道实际代表的结果，所以在网上了解数据集收集内容后，直接对将属性进行改名。
select attribute算子功能主要是选择所要的属性内容。
**注意：**算子相连过程中上个算子输出与下个算子的输入是要对应的，不然就会存在流程不通过的结果，如下图注意”Clustering“与”cluster distance performance “之间相连。
RapidMiner介绍与实践（三）K-Means
rename算子参数设置：

select attribute算子参数设置：

cluster distance performance算子参数设置：
Davies Bouldin标准用于判断分类效果，数值越小效果越好。用于判断k值到底取多少合适。