[SPSS]系统聚类和kmeans聚类的spss实现——基于多维度对中国各城市聚类
一、系统聚类
- 选中系统聚类并把变量移入变量框内,聚类选择按照个案聚类
在Display栏中选择Statistics和Plots复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。
选中绘图中的谱系图
单击保存选项卡,方案范围选择2到4,显示分为2、3和4类时的结果。
得到的谱系图如下所示:
在变量视图中可以很明显看到个案被分为2、3和4类的情况,其中上海在三种方案中都自成一类,尤其是分为两类并不合适。
二、k-means聚类
1、选择K-means聚类并把变量移入变量框。
选择聚类数为3且方法选择迭代与分类保证一直计算新的分类中心。
保存选项中同时选中聚类成员和与聚类中心的距离
在选项中选中初始聚类中心和对每个个案的聚类信息,则在输出窗口中将给出聚类的初始类中心和每个观测量的分类信息。
- 结果解释:
起始聚集中心给出了初始类的中心。
起始叢集中心 |
|||
|
叢集 |
||
1 |
2 |
3 |
|
食品 |
169.92 |
221.11 |
104.78 |
衣着 |
32.75 |
38.64 |
25.11 |
燃料 |
12.72 |
12.53 |
6.40 |
住房 |
47.12 |
115.65 |
9.89 |
交通和通讯 |
34.35 |
50.82 |
18.17 |
娱乐教育文化 |
5.00 |
5.89 |
3.25 |
迭代历程显示了经过两次迭代,故两次迭代后中心的变化为0。
疊代歷程a |
|||
疊代 |
叢集中心的變更 |
||
1 |
2 |
3 |
|
1 |
17.986 |
.000 |
16.864 |
2 |
.000 |
.000 |
.000 |
最终聚集中心显示除了每一类在每个变量标准下的平均值。
最終叢集中心 |
|||
|
叢集 |
||
1 |
2 |
3 |
|
食品 |
155.77 |
221.11 |
117.16 |
衣着 |
32.79 |
38.64 |
25.41 |
燃料 |
13.96 |
12.53 |
11.48 |
住房 |
36.15 |
115.65 |
19.40 |
交通和通讯 |
33.33 |
50.82 |
21.89 |
娱乐教育文化 |
5.59 |
5.89 |
4.23 |
三、两种方法的比较
1、关于聚类个数:系统聚类和k-means都需要自己选择聚类个数,但是系统聚类可以根据谱系图自己选择分类效果较好的几类。
2、聚类效果比较:
上图是k-means聚类的聚类结果,可以看到上海仍然自称一类,可见对于差异比较大的个案,两种方法都能区分出来,因而聚类效果基本一致。
但是系统聚类能看出各个个案之间关系的远近。
- 聚类能力比较:
在这个案例中没有体现出来,但是k-means由于计算量少,在处理大样本的时候更加有效率。