数学建模——相关系数(1)——皮尔逊Person相关系数
一、 相关系数简介
- 本专栏内容设计两种最为常用的相关系数:皮尔逊Person相关系数和斯皮尔曼Spearman等级相关系数。
- 相关系数可用来衡量两个变量之间的相关性的大小,根据数据满足的不同条件,我们要选择不同的相关系数进行计算和分析。
- 该部分是建模论文中最容易用错的方法。
二、相关的基本数学概念
总体和样本
- 总体:所要考察对象的全部个体
- 样本:从总体中所抽取的一部分个体叫做总体的一个样本。
- 我们可以通过计算样本的统计量来估计总体的统计量
- 例如:使用样本均值、样本标准差来估计总体的的均值(平均水平)和总体的标准差(偏离程度)
三、皮尔逊Person相关系数
1. 协方差
- 表示的是两个变量的总体的误差。
- 协方差用于度量各个维度偏离其均值的程度。
- 若协方差的值为正值,则说明两者是正相关的;若为负值,则说明两者是负相关的;若为0,则就是统计上说的“相互独立”。即,协方差为0时,两者独立。协方差的绝对值越大,两者对彼此的影响越大,反之,越小。
- 由协方差可以引出相关系数的定义。
参考资料链接:https://blog.****.net/GoodShot/article/details/79940438
- 我们观察协方差的公式,可以发现,X,Y(即,两个变量)的量纲会影响协方差的大小,因此并不适合比较大小,由此引出了相关系数。
2. 总体皮尔逊Person相关系数
- 观察总体Person相关系数的公式:我们发现皮尔逊相关系数可以看成消除了两个变量量纲影响,即将X和Y标准化后的协方差。
3. 样本皮尔逊Person相关系数
四、需要注意的地方
1. 相关系数只是用来衡量两个变量线性相关程度的指标
2. 通过绘制散点图可以很容易地判定两个变量x和y之间的相关性
图片来源[美]作者Pang‐Ning Tan 《数据挖掘导论》
3. 非线性相关也会导致线性相关系数很大
该散点图对应的数据的person相关系数为0.816.
4. 离群点对相关系数的影响很大
该散点图对应的数据的person相关系数为0.816.若去掉离群点,相关系数为0.98
5. 如果两个变量的相关系数很大也不能说明两者相关
该散点图对应的数据的person相关系数为0.816.
6. 相关系数计算结果为0,只能说不是线性相关,但说不定会有更复杂的相关关系(非线性相关)
7. 在计算person相关系数之前,一定要做出散点图来看两组变量之间是否有线性关系。(推荐使用Spss)
参考内容:清风数学建模