运用SPSS进行PCA主成分分析(因子分析)

PCA主成分分析是以降维方式提取主成分,提取出的主成分是原始变量的综合考量,可简化数据的复杂度,便于后期处理。本文记录了如何利用SPSS中自带的因子分析进行主成分分析。

一、 SPSS数据标准化

  1. 用SPSS软件打开文件;
    运用SPSS进行PCA主成分分析(因子分析)
  2. 数据标准化,【分析】–【描述统计】–【描述】;
    运用SPSS进行PCA主成分分析(因子分析)
  3. 将所有变量移至右侧,选择【将标准化值另存为变量】;
    运用SPSS进行PCA主成分分析(因子分析)
  4. 直接回到“数据视图”,可以看到多了81个标准化后的变量;
    运用SPSS进行PCA主成分分析(因子分析)

二、 SPSS主成分分析

  1. 主成分分析,【分析】–【降维】–【因子】;
    运用SPSS进行PCA主成分分析(因子分析)
  2. 将标准化后的变量移至右侧;
    运用SPSS进行PCA主成分分析(因子分析)
  3. 【概述】部分选择“初始解”、“系数”、“KMO和巴特利特球形度检验”;
    运用SPSS进行PCA主成分分析(因子分析)
  4. 【提取】部分选择主成分,其它默认即可;
    运用SPSS进行PCA主成分分析(因子分析)
  5. 【旋转】部分选择“最大方差法”、“旋转后的解”;
    运用SPSS进行PCA主成分分析(因子分析)
  6. 【得分】部分选择“显示因子得分系数矩阵”,若想保存为变量,也可选择;
    运用SPSS进行PCA主成分分析(因子分析)
  7. 【选项】部分选择“成列排除个案”、“按大小排序”;
    运用SPSS进行PCA主成分分析(因子分析)
  8. 查看结果中的“总方差解释”,提取的主成分个数,一般有两种条件:1)特征值>1,2)方差累积贡献率>80%,在85%—95%;
    运用SPSS进行PCA主成分分析(因子分析)

三、 EXCEL权重计算

  1. 由于前5个成分方差累积贡献率为85.564%>85%,因此提取前5个主成分;
    运用SPSS进行PCA主成分分析(因子分析)
  2. 因为z-score标准化是将数据进行正态分布,因此有正有负,需先进行绝对值化y=|x|;
    此步骤可视所需结果而定,若所研究的问题不在意权重计算后的值为负值,则此步骤可忽略
    运用SPSS进行PCA主成分分析(因子分析)
  3. 将接下来计算需要用到的特征根和方差记录好;
    运用SPSS进行PCA主成分分析(因子分析)
    运用SPSS进行PCA主成分分析(因子分析)
  4. 计算线性组合中的系数;
    公式为:绝对值化数/对应主成分特征根的平方根
    运用SPSS进行PCA主成分分析(因子分析)
  5. 计算综合得分模型中的系数;
    公式为:(第一主成分方差×第一线性组合系数N4+第二主成分方差×第二线性组合系数O4+第三主成分方差×第三线性组合系数P4+第四主成分方差×第四线性组合系数Q4+第五主成分方差×第五线性组合系数R4)/五项成分方差之和
    运用SPSS进行PCA主成分分析(因子分析)
  6. 计算权重;
    公式为:每项综合得分模型中的系数/综合得分模型中的系数之和
    运用SPSS进行PCA主成分分析(因子分析)
  7. 将权重进行倒序排序,排序前五项即为特征波段,对照标出波段即可。
    运用SPSS进行PCA主成分分析(因子分析)

四、 思考

1. 数据标准化的方法:“最小—最大标准化”、“Z-score标准化”;

a)最小—最大标准化
原理:将某一问项的原始值x通过标准化映射成在区间[0,1]中的值,其公式为:新数据=(原数据-极小值)/(极大值-极小值),也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 - 1]之间;
公式:标准化结果x’=(x-min)/(max-min),其中x表示原始数据,min表示该指标的最小值,max表示该指标的最大值;
b)Z-score标准化
原理:通过原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1,其标准化后的数值大小有正有负,如下图中的标准正态分布曲线;
运用SPSS进行PCA主成分分析(因子分析)
适用范围:数据的最大最小值不知道的情况下、有超出取值范围的离群数据的情况、适用于不同量级数据的无量化处理;
公式:新数据=(原数据-均值)/标准差;
此次实验选择的是Z-score标准化。

2. 关于KMO检验标准;

KMO是用来检验该数据是否可以使用主成分分析的一个指标
运用SPSS进行PCA主成分分析(因子分析)
由于此次实验的样本数小于指标数,或者可以理解为样本数过少导致KMO指标无法查看;因此我们通过相关性矩阵看到指标间有一定相关性,可提取主成分分析。