关联性学习,统计基础——我来个日报(七)

方差和标准差

关联性学习,统计基础——我来个日报(七)又称D(X)

关联性学习,统计基础——我来个日报(七)

样本方差和样本标准差都是衡量一个样本波动大小的量,样本方差或样本标准差越大,样本数据的波动就越大。标准差与方差不同的是,标准差和变量的计算单位相同,比方差清楚,因此很多时候我们分析的时候更多的使用的是标准差。

协方差

协方差(Covariance)在概率论统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。

协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

协方差为0的两个随机变量称为是不相关的。

关联性学习,统计基础——我来个日报(七)

关联性学习,统计基础——我来个日报(七)关联性学习,统计基础——我来个日报(七)关联性学习,统计基础——我来个日报(七)

当 cov(X, Y)>0时,表明 X与Y 正相关;

当 cov(X, Y)<0时,表明X与Y负相关;

当 cov(X, Y)=0时,表明X与Y不相关。

Pearson相关系数

Pearson相关系数(Pearson CorrelationCoefficient)是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系

关联性学习,统计基础——我来个日报(七)

取样本pearson相关系数时,分子为n-1

观察总体Person相关系数的公式:我们发现皮尔逊相关系数可以看成消除了两个变量量纲影响,即将X和Y标准化后的协方差。 因此,我们可以使用皮尔逊相关系数来衡量两个变量线性相关的程度。

 在计算皮尔逊相关系数之前,一定要做出散点图来看两组变量之间是否有线性关系

代码实现

X1.corr(Y1,method="pearson")     #X1为A变量 X2为B变量

评估

0.8-1.0 极强相关  
0.6-0.8 强相关  
0.4-0.6 中等程度相关  
0.2-0.4 弱相关   
0.0-0.2 极弱相关或无相关