SAS之聚类分析
实验目的:
1:认识SAS。
2:数学SAS界面及操作。
3:掌握数据如何读入SAS。
4:用SAS完成聚类分析
实验题目:
近几年,中国房地产业得到了长足的发展,但房地产价格的上涨一直饱受争议,甚至有逃离北上广的言论,这也侧面反映了房地产价格的区域性特征,下表为2008年中国31个省,市,自治区房地产业的相关统计数据,
求:对此数据进行系统聚类分析,应该分为几类比较合适?
X1:房屋平均销售价格;X2:住宅平均销售价格;X3:别墅,高档公寓平均销售价格;X4:经济适用房平均销售价格;X5:办公楼平均销售价格X6:商业营业用房平均销售价格;X7:其他平均销售价格;X8:商品房销售面积;X9:住宅销售面积。
采用最长聚类方法;
data examp632;
input [email protected]@;
cards;
北京 12418 11648 19541 3813 16554 17148 6416 1335.37 1031.43
天津 6015 5598 11107 3571 9783 10338 9195 1252.04 1135.35
河北 2779 2743 6375 2208 3692 3915 2102 2231.84 2128.86
山西 2355 2253 5741 1466 6115 2867 2545 994.71 893.10
内蒙古 2483 2265 4104 1690 4822 4080 2660 2396.37 2093.34
辽宁 3758 3575 7265 2095 4783 6149 3888 4091.16 3731.19
吉林 2507 2399 6175 1932 3256 3687 3213 1583.87 1435.73
黑龙江 2832 2642 5414 1785 2804 4330 3019 1486.57 1286.62
上海 8195 8115 12792 1847 11783 6610 5529 2339.29 2007.48
江苏 4049 3802 7729 1922 5906 6172 2567 6091.86 5282.89
浙江 6262 6144 9424 3092 9716 7446 3180 2992.2 2480.74
安徽 2949 2808 4058 1731 4596 4627 2139 2785.83 2542.6
福建 4384 4498 7334 2313 5386 8303 1686 1625.67 1250.00
江西 2136 2022 3141 1098 2840 4039 2057 1727.6 1604.86
山东 2970 2851 7256 1826 5601 4601 2440 5507.64 5039.4
河南 2339 2138 3618 1372 4367 5065 1933 3191.98 2943.36
湖北 3001 2898 6191 1900 5122 4863 3513 1941.62 1821.31
湖南 2302 2113 4007 1388 4212 4564 1969 2655.51 2413.7
广东 5953 5723 6817 2380 10554 8630 5296 4852.28 4360.45
广西 2826 2634 4601 1880 4959 6077 2926 1768.04 1637.99
海南 5443 5441 9058 1686 5831 5461 5157 372.44 358.72
重庆 2785 2640 6322 1751 4667 5432 2489 2872.19 2669.93
四川 3157 3067 7934 1266 5688 4528 2397 3501.27 3247.32
贵州 2339 2122 4738 1926 3672 5967 2935 908.2 848.11
云南 2680 2441 3230 1441 4860 5203 3086 1643.08 1478.25
西藏 3202 3103 3547 2133 10000 4554 1200 66.49 62.08
陕西 2952 2821 5589 1691 5571 5056 3149 1513.01 1426.06
甘肃 1958 1851 2082 1264 2899 4008 2134 624.66 588.63
青海 2460 2384 2768 1214 3271 4246 2625 147.89 141.23
宁夏 2435 2215 5345 1447 3726 4243 1570 514.81 453.26
新疆 2240 2100 3684 1333 5184 4156 2434 954.35 886.35
;
proc print data=examp632;
run;
proc distance data=examp632 out=Distance method=gower shape=square;
var interval(x1-x9);
run;
proc cluster data=examp632 method=com outtree=tree;
id province;
var x1-x9;
proc tree horizontal;
id province;
run;
实验结果:
实验结果分析:
根据实际经验我认为应当分为四类比较合适:第一类:海南,福建,山东,江苏,四川,辽宁,这些城市一般是沿海或者在长江沿岸,经济比较发达,因此房价一般比较高。第二类:西藏,青海,江西,广西,陕西,河北,吉林等这类中的城市一般多位于中西部或者东北,这些城市由于地域,交通或资源等原因,导致这些城市的经济都不是很发达,因此房价都普遍偏低。第三类:广东,浙江,上海,天津。这些城市都是我国的经济发达城市,并且位于沿海,工商业发达。因此房价都普遍偏高。第四类:北京。北京是我国政治经济文化的中心,经济发达,因此房价要比其它三类都要高很多。