SPSS软件 相关分析 回归分析 聚类分析 主成分分析
SPSS软件 相关分析 回归分析 聚类分析 主成分分析
1.相关分析
相关分析(correlation analysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。例如,以X、Y分别记小学生的数学与语文成绩,感兴趣的是二者的关系如何,而不在于由X去预测Y。
相关关系是一种非确定性的关系,例如,以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系。
线性相关分析:研究两个变量间线性关系的程度。用相关系数r来描述。
(1)正相关:如果x,y变化的方向一致,如身高与体重的关系,r>0;一般地,·|r|>0.95 存在显著性相关;·|r|≥0.8 高度相关;·0.5≤|r|<0.8 中度相关;·0.3≤|r|<0.5 低度相关;·|r|<0.3 关系极弱,认为不相关
(2)负相关:如果x,y变化的方向相反,如吸烟与肺功能的关系,r<0;
(3)无线性相关:r=0。如果变量Y与X间是函数关系,则r=1或r=-1;如果变量Y与X间是统计关系,则-1<1。(4)r的计算有三种:①Pearson相关系数:对定距连续变量的数据进行计算。②Spearman和Kendall相关系数:对分类变量的数据或变量值的分布明显非正态或分布不明时,计算时先对离散数据进行排序或对定距变量值排(求)秩。
2、偏相关分析:研究两个变量之间的线性相关关系时,控制可能对其产生影响的变量。如控制年龄和工作经验的影响,估计工资收入与受教育水平之间的相关关系。
3、距离分析:是对观测量之间或变量之间相似或不相似程度的一种测度,是一种广义的距离。分为观测量之间距离分析和变量之间距离分析。
(1)不相似性测度:·a、对等间隔(定距)数据的不相似性(距离)测度可以使用的统计量有Euclid欧氏距离、欧氏距离平方等。·b、对计数数据使用卡方。·c、对二值(只有两种取值)数据,使用欧氏距离、欧氏距离平方、尺寸差异、模式差异、方差等。
(2) 相似性测度:·a、等间隔数据使用统计量Pearson相关或余弦。·b、测度二元数据的相似性使用的统计量有20余种。
以性别和学习成绩为例
分析-相关-双变量
通过显著性水平检验(双尾),性别和学习成绩不相关的概率为0.624,大于0.01和0.05,可以判断学习成绩和性别无关。
2.回归分析
回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
1.一元线性回归
以某地点一月气温和海拔高度的数据为例
回归-分析-线性
Y=1.682+0.030X
回归系数检验,显著性(从相关系数等于0中抽出的概率)为0.255,大于0.05(大于0.01),及海拔高度与一月气温不存在回归关系。
F检验,显著性为0.255,大于0.05(大于0.01)
回归模型,R非常小,R²=0.127,X只能在0.127的程度上代表Y,且不能通过显著性检验,说明海拔高度与一月平均气温之间无关系。
2.多元线性回归
1.以各地课题总量,投入高级职称量,发表论文量的数据为例
多元线性回归模型,调整后的R²=0.904,说明拟合优度比较好。
F值为142.930,显著性为0.000,小于0.05,说明用X1和X2来表征Y是具有显著性的。
Y=576.801-0.509X1+4.292X2,课题总数(从相关系数等于0中抽出的概率)为0.461,不具有显著性,投入高级职称数(从相关系数等于0中抽出的概率)为0.000,具有显著性。
因此剔除自变量课题总数,再进行投入高级职称数和发表论文数的回归分析。
Y=589.283+3.808X, R²=0.909,F显著性检验通过,系数中投入高级职称数的显著性也通过,所以发表论文数与投入高级职称数之间有很好的回归关系(高级职称数每增加一位,可多发表3.808篇论文)。
2.逐步回归
Y=265.186+25.212X
3.聚类分析
聚类分析指将物理或抽象对象的集合 分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。 聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学, 计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些 技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。
依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。
各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近事物归入一类。
各指标之间具有一定的相关关系。
聚类分析(cluster analysis)是一组将研究对象分为 相对同质的群组(clusters)的统计分析技术。 聚类分析区别于分类分析(classification analysis) ,后者是有监督的学习。
聚类与分类的不同在于,聚类所要求划分的类是未知的。
聚类是将 数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。
从统计学的观点看,聚类分析是通过 数据建模简化数据的一种方法。传统的统计聚类分析方法包括 系统聚类法、 分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k- 均值、k-中心点等 算法的聚类分析工具已被加入到许多著名的统计分析 软件包中,如 SPSS、 SAS等。
从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的 无监督学习过程。与分类不同, 无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或 数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。
从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他 算法(如分类和定性归纳算法)的预处理 步骤。
变量类型:定类变量、定量(离散和连续)变量
分析-分类-系统聚类
4.主成分分析
主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标(即主成分),其中每个主成分都能够反映原始变量的大部分信息,且所含信息互不重复。这种方法在引进多方面变量的同时将复杂因素归结为几个主成分,使问题简单化,同时得到的结果更加科学有效的数据信息。在实际问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。主要方法有特征值分解,SVD,NMF等。