统计分析基础

1.描述性统计分析

1. 统计量

频数、频率
均值、中位数、众数、分位数
极差、方差、标准差
偏度(skew)小于0左偏,大于0右偏(右尾长)
峰度(kurt)小于0低于正态分布,大于0高于正态分布

正态分布
均值=中位数=众数
左偏(偏度skew<0)
均值<中位数<众数
右偏(偏度>0)
均值>中位数>众数

分位数如果不为整数则按权重取值

2.变量类型

类别变量:
无序类别变量(名义变量)
有序类别变量(等级变量)
数值变量:
连续变量
离散变量

2.参数估计

1.点估计

用样本统计量去替代总体参数
优点:能够给出具体的数值
缺点:缺乏准确性

2.区间估计

根据样本统计量计算一个可能的区间和概率。
区间为置信区间,概率为置信度
优点:能够给出合理的范围以及信心指数
缺点:不能给出具体数值

3. 中心极限定理

当样本容量n足够大时,样本均值围绕在总体均值左右,呈正态分布。
样本均值构成的正态分布均值等于总体均值,标准差等于总体标准差除以根号n

正态分布
统计分析基础

3. 假设检验

基于反证法,假设原假设为真,如果得出了违背常理的结论则拒绝原假设,接受备择假设。否则没有充分的理由推翻原假设就只能接受备择假设。

1.假设检验的步骤

  1. 设置原假设和备择假设
  2. 设置显著性水平α(一般α=0.05)
  3. 根据问题选择假设检验方式
  4. 计算统计量获取P值
  5. 判断P值与α值。P大于α就接受原假设。

2. Z检验

判断样本均值和总体均值是否相等
条件:

  1. 总体呈正态分布
  2. 总体方差已知
  3. 样本容量较大(>30)
    统计分析基础

3. t检验

判断样本均值与总体均值是否有显著性差异
条件:

  1. 总体呈正态分布
  2. 样本方差未知
  3. 样本数量较少(<30)
    统计分析基础
    S为样本的标准差
    t检验包含*度,df=n-1
    单边检验计算时由于均值可以大于也可以小于总体均值,因此在计算P时取统计量绝对值乘2

3. 双边检验

取原假设<=的为右边假设检验
取原假设>=的为左边假设检验

4.卡方检验

卡方检验主要是比较两个分类变量的关联性分析以及两个及两个以上样本率(构成比)。
这里介绍两个分类变量的关联性分析。
统计分析基础
A为实际值,T为理论值。*度df=(行数-1)*(列数-1)
举例判断喝牛奶与感冒的关联分析。原数据如下
统计分析基础

原假设:喝牛奶与感冒没有关系
则可以根据假设计算出理论值
统计分析基础
根据原假设喝牛奶和感冒无关,计算出的卡方检验值应该很小
计算后得出
X^2=1.077,通过查表α=0.05,df=(2-1)*(2-1)=1,临界值为3.84
1.077<3.84因此在置信度0.05的情况下没有理由拒绝原假设,故接受原假设。