相关性模型 之 皮埃尔相关系数与斯皮尔曼相关系数
皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数。它们可用来衡量两个变量之间的相关性的大小,根据数据满足的不同条件,我们要选择不同的相关系数进行计算和分析(建模论文中最容易用错的方法)。
基本概念
总体——所要考察对象的全部个体叫做总体.
我们总是希望得到总体数据的一些特征(例如均值方差等)
样本——从总体中所抽取的一部分个体叫做总体的一个样本
计算这些抽取的样本的统计量来估计总体的统计量:
例如使用样本均值、样本标准差来估计总体的均值(平均
水平)和总体的标准差(偏离程度)
皮尔逊Pearson相关系数
就是概率论学的相关系数。一般我们认为不加前缀说明的相关系数都是皮尔逊相关系数
首先我们要理解协方差关于协方差:如果X、Y(相对于均值)变化方向相同则乘积为正,反之为负
注:协方差的大小和两个变量的量纲有关,因此不适合做比较。
所以我们引入皮尔逊相关系数剔除了量纲的影响,即将X和Y标准化后的协方差
(1)总体皮尔逊相关系数(2)样本皮尔逊相关系数
一些误区
以上的相关系数只是用来来衡量两个变量线性相关程度的指标;即我们必须先确认这两个变量是线性相关的,然后这个相关系数才能告诉你他俩相关程度如何(先画散点图)
eg.形式上必须大致满足 Y = a*X+b
例如下面几个错误示例