数学建模——相关系数(1)——皮尔逊Person相关系数

一、 相关系数简介

  • 本专栏内容设计两种最为常用的相关系数:皮尔逊Person相关系数斯皮尔曼Spearman等级相关系数
  • 相关系数可用来衡量两个变量之间的相关性的大小,根据数据满足的不同条件,我们要选择不同的相关系数进行计算和分析。
  • 该部分是建模论文中最容易用错的方法。

二、相关的基本数学概念

总体和样本

  • 总体:所要考察对象的全部个体
  • 样本:从总体中所抽取的一部分个体叫做总体的一个样本。
  • 我们可以通过计算样本的统计量来估计总体的统计量
    • 例如:使用样本均值、样本标准差来估计总体的的均值(平均水平)和总体的标准差(偏离程度)

三、皮尔逊Person相关系数

1. 协方差

数学建模——相关系数(1)——皮尔逊Person相关系数

  • 表示的是两个变量的总体的误差。
  • 协方差用于度量各个维度偏离其均值的程度。
  • 若协方差的值为正值,则说明两者是正相关的;若为负值,则说明两者是负相关的;若为0,则就是统计上说的“相互独立”。即,协方差为0时,两者独立。协方差的绝对值越大,两者对彼此的影响越大,反之,越小。
  • 由协方差可以引出相关系数的定义。

参考资料链接:https://blog.****.net/GoodShot/article/details/79940438

  • 我们观察协方差的公式,可以发现,X,Y(即,两个变量)的量纲会影响协方差的大小,因此并不适合比较大小,由此引出了相关系数。

2. 总体皮尔逊Person相关系数

数学建模——相关系数(1)——皮尔逊Person相关系数

  • 观察总体Person相关系数的公式:我们发现皮尔逊相关系数可以看成消除了两个变量量纲影响,即将X和Y标准化后的协方差。

3. 样本皮尔逊Person相关系数

数学建模——相关系数(1)——皮尔逊Person相关系数

四、需要注意的地方

1. 相关系数只是用来衡量两个变量线性相关程度的指标

数学建模——相关系数(1)——皮尔逊Person相关系数

2. 通过绘制散点图可以很容易地判定两个变量x和y之间的相关性

数学建模——相关系数(1)——皮尔逊Person相关系数

图片来源[美]作者Pang‐Ning Tan 《数据挖掘导论》

3. 非线性相关也会导致线性相关系数很大

数学建模——相关系数(1)——皮尔逊Person相关系数
该散点图对应的数据的person相关系数为0.816.

4. 离群点对相关系数的影响很大

数学建模——相关系数(1)——皮尔逊Person相关系数
该散点图对应的数据的person相关系数为0.816.若去掉离群点,相关系数为0.98

5. 如果两个变量的相关系数很大也不能说明两者相关

数学建模——相关系数(1)——皮尔逊Person相关系数
该散点图对应的数据的person相关系数为0.816.

6. 相关系数计算结果为0,只能说不是线性相关,但说不定会有更复杂的相关关系(非线性相关)

数学建模——相关系数(1)——皮尔逊Person相关系数

7. 在计算person相关系数之前,一定要做出散点图来看两组变量之间是否有线性关系。(推荐使用Spss)

参考内容:清风数学建模