统计学与工具实现(四)

前面三节中介绍的平均数,方差,标准差等都是对一个随机变量的描述,如果想要了解两个随机变量之间的关系,可以使用协方差和相关系数。

协方差(covariance)

首先回顾一下方差的公式:统计学与工具实现(四)

仿照方差的定义,协方差的公式如下:

                                                    统计学与工具实现(四)

从公式定义可以看出,方差是协方差的一个特殊情况,即当两个变量是相同的情况。

协方差为正,说明X,Y同向变化,协方差越大说明同向程度越高;协方差为负,说明X,Y反向变化,协方差越小说明反向程度越高;协方差为0,表示两个变量无线性相关。 

相关系数(correlationcoefficient)

相关系数可以用来表示两个变量之间的线性关系,这里介绍一个最常见的相关系数:皮尔逊积矩相关系数(Pearson product-moment correlation),又叫皮尔逊积差相关系数,后面将简称为皮尔逊相关系数。需要说明的是,皮尔逊相关系数不是唯一的相关系数。

协方差可以刻画两个变量之间的线性关系,但受变量变化幅度的影响,通过除以标准差的方式可以剔除变化幅度的影响,这就是皮尔逊相关系数,计算公式如下:

统计学与工具实现(四)

是X与Y的协方差, 分别为X,Y的标准差,相关系数的计算公式进一步表示为:

统计学与工具实现(四)

皮尔逊相关系数的值域范围为[-1,1]。两个变量变化方向相同,相关是直接相关(direct correlation)或正相关(positive correlation); 两个变量变化方向相反,相关是间接相关(indirect correlation)或负相关(negative correlation)。计算皮尔逊积矩相关系数,除了要求X,Y是连续变量外,还需要满足一下一些条件:1)变量的总体接近正态分布,至少是单峰对称分布;2)每对数据的取值是相互独立的;3)当n小于30时,计算出的r是不可靠的。皮尔逊相关系数的绝对值越大,相关关系就越强。

相关系数绝对值的大小

一般解释

0.8~1.0

非常强的相关

0.6~0.8

强相关

0.4~0.6

中度相关

0.2~0.4

弱相关

0.0~0.2

弱相关或无相关

但需要注意的是相关系数和因果关系是没有联系的。

决定系数(coefficient ofdetermination)

一个变量的方差可以被另一个变量的方差解释的百分比,决定系数可以度量因果关系。

决定系数是相关系数的平方,值域为[0,1]

统计学与工具实现(四)

工具实现

Excel

统计学与工具实现(四)

R

统计学与工具实现(四)

Python

返回的第一个值是皮尔逊相关系数,第二个值是p值

统计学与工具实现(四)