数学建模数据驱动之统计学预备知识
本博文源于《商务经济数据分析》。博主为了参加数学建模,学习更多的知识,与大家一起共同学习统计学预备知识
数据描述指标
集中趋势的测度方法
所谓的集中趋势就是数据向其中心值靠拢的倾向和程度
均值
- 简单算术平均数:总体样本值求和除以总体样本个数
- 加权算术平均数:各样本值乘以权重总体求和除以权重求和
- 简单几何平均数:总体样本值乘积的n次方根
- 加权集合平均数:各样本的权重次方乘积开权重求和次方
中位数
一组数据按大小顺序排列后,处在数列中点位置的数值,典型的位置平均数。
众数
一组数据中出现次数最多的变量值,也是一种位置平均数,可能有一个众数,也可能有多个。
主要特点:
- 不受极端值的影响
- 有的数据没有众数或有很多个众数
- 有很大的局限性,可能不反应整体情况,比如:一个班级选最美妈妈,结果双胞胎的妈妈当选。
离中趋势的测度方法
极差
一组数据的最大值与最小值之差
特点:受极端值的影响
四分位距
方差和标准差
方差是一组数据中各数值与其算术平均数离差平方的平均数,标准差是方差正的平方根。
fi是分组值哦!
这里会产生一个叫做自由度的概念。自由度:一组数据中可以自由取值的数据的个数。
当样本数据的个数为n时,若样本均值x确定后,只有n-1个数据可以自由取值。因此
变异系数
标准差与其相应的均值之比
特点:
- 反映了相对于均值的相对离散程度
- 可用于比较计量单位不同的数据的离散程度
- 计量单位相同时,如果两组数据的均值相差悬殊,离散系数可能比标准差等绝对指标更有意义。
偏度与峰度
偏态
数据分布的不对称性称作偏态。偏态系数就是对数据分布的不对称性的测度。
偏态系数的统计软件计算公式
SK大小的讨论偏态系数的含义
SK<0:
左偏分布也叫做负偏分布
SK=0:
对称分布
SK>0:
右偏分布也称正偏分布
峰度
数据分布的扁平或尖峰程度。峰度系数是峰度的度量值,用K表示
常用以下公式计算:
峰度系数的含义
K<0 :
与正态分布相比该分布一般为扁平、瘦尾、肩部比较胖
K>0:
与正态分布相比该分布一般为尖峰、肥尾,肩部较瘦
离散型随机变量
所谓的随机变量给就是一个变量来表示随机试验的结果。其中把所有可能取值以及随机变量取这些值的概率列出来,就可以得到离散型随机变量的概率分布。
两点分布
只有0和1两种情况,取到0的情况个数除以总随机变量的个数,取到1的情况的个数除以总随机变量的个数
二项分布
进行n次重复实验,每次实验中“成功”的概率为p,出现“成功”的次数概率分布称为二项分布
泊松分布
是二项分布的极限分布,是稀有事件出现次数的理论模型
连续型随机变量
在连续型随机变量中,取到特定的一个点的概率为0。因此我们研究区间值的概率。
均匀分布
正态分布
正态分布的一个参数绝对了图形的中心位置,第二个参数决定了图形中峰的陡峭程度。
其中一般正态分布可以转化为标准正态分布,公式为:
卡方分布
n个独立同分布,服从N(0,1)的随机变量的平方和服从自由度为n的卡方分布
t分布
并给出了不同自由度的t分布图
F分布
设X和Y是相同独立的服从卡方分布的随机变量,自由度分别为n1和n2,则称随机变量:
F称为第一自由度为n1,第二自由度为n2