数学建模数据驱动之统计学预备知识

本博文源于《商务经济数据分析》。博主为了参加数学建模,学习更多的知识,与大家一起共同学习统计学预备知识

数据描述指标

集中趋势的测度方法

所谓的集中趋势就是数据向其中心值靠拢的倾向和程度

均值

  • 简单算术平均数:总体样本值求和除以总体样本个数
  • 加权算术平均数:各样本值乘以权重总体求和除以权重求和
  • 简单几何平均数:总体样本值乘积的n次方根
  • 加权集合平均数:各样本的权重次方乘积开权重求和次方

中位数

一组数据按大小顺序排列后,处在数列中点位置的数值,典型的位置平均数。

众数

一组数据中出现次数最多的变量值,也是一种位置平均数,可能有一个众数,也可能有多个。

主要特点:

  • 不受极端值的影响
  • 有的数据没有众数或有很多个众数
  • 有很大的局限性,可能不反应整体情况,比如:一个班级选最美妈妈,结果双胞胎的妈妈当选。

离中趋势的测度方法

极差

一组数据的最大值与最小值之差
特点:受极端值的影响

四分位距

方差和标准差

方差是一组数据中各数值与其算术平均数离差平方的平均数,标准差是方差正的平方根。
数学建模数据驱动之统计学预备知识
fi是分组值哦!
这里会产生一个叫做自由度的概念。自由度:一组数据中可以自由取值的数据的个数。
当样本数据的个数为n时,若样本均值x确定后,只有n-1个数据可以自由取值。因此
数学建模数据驱动之统计学预备知识

变异系数

标准差与其相应的均值之比
特点:

  • 反映了相对于均值的相对离散程度
  • 可用于比较计量单位不同的数据的离散程度
  • 计量单位相同时,如果两组数据的均值相差悬殊,离散系数可能比标准差等绝对指标更有意义。

偏度与峰度

偏态

数据分布的不对称性称作偏态。偏态系数就是对数据分布的不对称性的测度。

偏态系数的统计软件计算公式

数学建模数据驱动之统计学预备知识

SK大小的讨论偏态系数的含义

SK<0:
左偏分布也叫做负偏分布
数学建模数据驱动之统计学预备知识
SK=0:
对称分布
数学建模数据驱动之统计学预备知识
SK>0:
右偏分布也称正偏分布
数学建模数据驱动之统计学预备知识

峰度

数据分布的扁平或尖峰程度。峰度系数是峰度的度量值,用K表示

常用以下公式计算:

数学建模数据驱动之统计学预备知识

峰度系数的含义

K<0 :
与正态分布相比该分布一般为扁平、瘦尾、肩部比较胖
数学建模数据驱动之统计学预备知识
K>0:
与正态分布相比该分布一般为尖峰、肥尾,肩部较瘦
数学建模数据驱动之统计学预备知识

离散型随机变量

所谓的随机变量给就是一个变量来表示随机试验的结果。其中把所有可能取值以及随机变量取这些值的概率列出来,就可以得到离散型随机变量的概率分布。

两点分布

只有0和1两种情况,取到0的情况个数除以总随机变量的个数,取到1的情况的个数除以总随机变量的个数
数学建模数据驱动之统计学预备知识

二项分布

进行n次重复实验,每次实验中“成功”的概率为p,出现“成功”的次数概率分布称为二项分布
数学建模数据驱动之统计学预备知识

泊松分布

是二项分布的极限分布,是稀有事件出现次数的理论模型
数学建模数据驱动之统计学预备知识

连续型随机变量

在连续型随机变量中,取到特定的一个点的概率为0。因此我们研究区间值的概率。

均匀分布

数学建模数据驱动之统计学预备知识

正态分布

数学建模数据驱动之统计学预备知识
正态分布的一个参数绝对了图形的中心位置,第二个参数决定了图形中峰的陡峭程度。
数学建模数据驱动之统计学预备知识
其中一般正态分布可以转化为标准正态分布,公式为:
数学建模数据驱动之统计学预备知识

卡方分布

n个独立同分布,服从N(0,1)的随机变量的平方和服从自由度为n的卡方分布
数学建模数据驱动之统计学预备知识

t分布

数学建模数据驱动之统计学预备知识
并给出了不同自由度的t分布图
数学建模数据驱动之统计学预备知识

F分布

设X和Y是相同独立的服从卡方分布的随机变量,自由度分别为n1和n2,则称随机变量:
数学建模数据驱动之统计学预备知识
F称为第一自由度为n1,第二自由度为n2