您的位置: 首页 > 文章 > 数学建模数据驱动之统计学预备知识

数学建模数据驱动之统计学预备知识

分类: 文章 • 2025-05-10 08:43:22

本博文源于《商务经济数据分析》。博主为了参加数学建模，学习更多的知识，与大家一起共同学习统计学预备知识

数据描述指标

集中趋势的测度方法

所谓的集中趋势就是数据向其中心值靠拢的倾向和程度

均值

简单算术平均数：总体样本值求和除以总体样本个数
加权算术平均数：各样本值乘以权重总体求和除以权重求和
简单几何平均数：总体样本值乘积的n次方根
加权集合平均数：各样本的权重次方乘积开权重求和次方

中位数

一组数据按大小顺序排列后，处在数列中点位置的数值，典型的位置平均数。

众数

一组数据中出现次数最多的变量值，也是一种位置平均数，可能有一个众数，也可能有多个。

主要特点：

不受极端值的影响
有的数据没有众数或有很多个众数
有很大的局限性，可能不反应整体情况，比如：一个班级选最美妈妈，结果双胞胎的妈妈当选。

离中趋势的测度方法

极差

一组数据的最大值与最小值之差
特点：受极端值的影响

四分位距

方差和标准差

方差是一组数据中各数值与其算术平均数离差平方的平均数，标准差是方差正的平方根。
数学建模数据驱动之统计学预备知识
fi是分组值哦！
这里会产生一个叫做自由度的概念。自由度：一组数据中可以自由取值的数据的个数。
当样本数据的个数为n时，若样本均值x确定后，只有n-1个数据可以自由取值。因此

变异系数

标准差与其相应的均值之比
特点：

反映了相对于均值的相对离散程度
可用于比较计量单位不同的数据的离散程度
计量单位相同时，如果两组数据的均值相差悬殊，离散系数可能比标准差等绝对指标更有意义。

偏度与峰度

偏态

数据分布的不对称性称作偏态。偏态系数就是对数据分布的不对称性的测度。

偏态系数的统计软件计算公式

数学建模数据驱动之统计学预备知识

SK大小的讨论偏态系数的含义

SK<0：
左偏分布也叫做负偏分布
数学建模数据驱动之统计学预备知识
SK=0：
对称分布

SK>0：
右偏分布也称正偏分布

峰度

数据分布的扁平或尖峰程度。峰度系数是峰度的度量值，用K表示

常用以下公式计算：

数学建模数据驱动之统计学预备知识

峰度系数的含义

K<0 :
与正态分布相比该分布一般为扁平、瘦尾、肩部比较胖
数学建模数据驱动之统计学预备知识
K>0:
与正态分布相比该分布一般为尖峰、肥尾，肩部较瘦

离散型随机变量

所谓的随机变量给就是一个变量来表示随机试验的结果。其中把所有可能取值以及随机变量取这些值的概率列出来，就可以得到离散型随机变量的概率分布。

两点分布

只有0和1两种情况，取到0的情况个数除以总随机变量的个数，取到1的情况的个数除以总随机变量的个数
数学建模数据驱动之统计学预备知识

二项分布

进行n次重复实验，每次实验中“成功”的概率为p，出现“成功”的次数概率分布称为二项分布
数学建模数据驱动之统计学预备知识

泊松分布

是二项分布的极限分布，是稀有事件出现次数的理论模型
数学建模数据驱动之统计学预备知识

连续型随机变量

在连续型随机变量中，取到特定的一个点的概率为0。因此我们研究区间值的概率。

均匀分布

数学建模数据驱动之统计学预备知识

正态分布

数学建模数据驱动之统计学预备知识
正态分布的一个参数绝对了图形的中心位置，第二个参数决定了图形中峰的陡峭程度。

其中一般正态分布可以转化为标准正态分布，公式为：

卡方分布

n个独立同分布，服从N(0,1)的随机变量的平方和服从自由度为n的卡方分布
数学建模数据驱动之统计学预备知识

t分布

数学建模数据驱动之统计学预备知识
并给出了不同自由度的t分布图

F分布

设X和Y是相同独立的服从卡方分布的随机变量，自由度分别为n1和n2，则称随机变量：
数学建模数据驱动之统计学预备知识
F称为第一自由度为n1,第二自由度为n2