医学统计学笔记之分布

1. 正态分布

正态分布可以记作x~N(μ,σ2),其中μ,σ分别为正态分布的位置参数和形态参数。
医学统计学笔记之分布
1.1 主要特征

  • 正态曲线在横轴上方,均数处的纵坐标最高,并与x轴永不相交。
  • 正态分布以均数为中心,呈单峰、左右对称分布。
  • 在正态分布中,均数、中位数、众数相等。
  • 正态分布有两个参数(parameter),即均数是位置参数,标准差是形状参数。
  • 正态分布曲线下面积分布有一定规律:
    医学统计学笔记之分布
    1.2 应用
  • 不少医学现象是服从正态分布或近似正态分布。
  • 制定医学参考值范围。
  • 正态分布是很多统计方法的理论基础,如卡方分布、t分布和F分布等都是在正态分布的基础上推导出来的。

2. t 分布

特征:
① t分布的密度曲线呈单峰,曲线以0为中心,左右对称的单峰分布,t值可以是正数,也可以是负数;
② t分布是一簇曲线,其形态变化与n(确切地说与自由度ν)大小有关,自由度一旦确定,则其概率密度曲线的形状也就确定。自由度ν越小,t分布曲线越低平,尾部越高;自由度的ν大,t分布曲线越接近标准正态分布曲线,t分布的极限分布为Z分布。
③ 与标准正态分布相比,曲线最高处较矮,两尾部较高。
医学统计学笔记之分布

3. 二项分布

一般地,在一个n重伯努利试验中,令X表示事件A发生的次数,事件A可能发生0,1,2,…,n次,则随机变量X所有可能的取值为0,1,2,…,n ,而事件A恰好发生k(0≤k≤n)次的概率函数为
医学统计学笔记之分布
称随机变量X服从参数为n和π的二项分布(binomial distribution),记为X~B(n,π)
二项分布是一种离散型概率分布。参数n称为离散参数,只能取正整数;参数π是事件A发生的总体概率。

3.1 图形
医学统计学笔记之分布
3.2 均数与标准差
医学统计学笔记之分布
3.3 正态近似
据中心极限定理,在n较大,nπ与n(1-π)均大于或等于5时,二项分布接近正态分布;
当n→∞时,二项分布B(n,π)的极限分布是总体均数为μ=nπ,总体方差为σ2=nπ(1-π)的正态分布N(nπ,nπ(1-π))。此时可用正态分布N(nπ,nπ(1-π))作近似计算。

3.4 应用
在应用二项分布时必须注意,要满足二项分布的3个应用条件:
(1)各观察单位只具有互相对立的两种结果,如阳性或阴性、生存或死亡等。
(2)已知发生某一结果(如死亡)的概率为π,其对立结果的概率则为1-π。实际中若π未知,可以用从大量观察中获得的比较稳定的样本频率p作为总体频率π的估计值。
(3)n个观察单位的观察结果互相独立,即每个观察单位的观察结果不会影响到其他观察单位的观察结果。

4. Poisson分布

4.1 图形
μ是Poisson分布所依赖的唯一参数,它表示单位时间(或单位面积、单位空间)内某随机事件的平均发生数,即总体参数。
医学统计学笔记之分布
4.2 总体均数与总体方差相等μ=σ2

4.3 正态近似
当μ=20时,Poisson分布接近于正态分布;当μ=50时,可以认为Poisson分布呈正态分布。所以在实际工作中,μ≥20时就可以用正态分布来近似地处理Poisson分布的问题。

4.4 可加性
若m个互相独立的随机变量X1,X2,X3,…,Xm分别服从参数为μ1,μ2,…,μm的Poisson分布,则其和X1+X2+X3+…+Xm也服从均数为μ1+μ2+…+μm的Poisson分布。

4.5 应用条件
Poisson分布是一种重要的离散型概率分布,用于描述在单位空间或时间内某稀有事件发生的次数。

5. 卡方分布

方差的分布有χ2分布和F分布。描述一个总体的方差时用χ2分布,而描述两个总体的方差时用F分布。
特征:

  • χ2分布是连续型随机变量分布的概率分布。如果Z服从标准正态分布,那么Z2服从自由度为1的χ2分布,其概率密度曲线在(0,+∞)区间上表现为L形
  • χ2分布形状与自由度的大小有关,自由度一旦确定,则卡方分布的形状就确定了。随着自由度增大,分布曲线逐渐趋于对称,当自由度足够大时,χ2分布曲线接近正态分布曲线。
    医学统计学笔记之分布

6. F分布

F分布是关于两个总体方差的分布,其统计量F是两个独立χ2分布除以它们相应自由度的比率。
F分布曲线也是一簇曲线,随着自由度的增大,分布曲线逐渐趋于对称,当自由度足够大时,F分布曲线接近正态分布曲线。
医学统计学笔记之分布

7. 假设检验

7.1 参数检验
以特定的总体为前提,对未知的总体参数做推断的假设检验方法统称为参数检验。以正态分布总体均数进行假设检验的t检验和方差分析均属于参数检验。

7.2 非参数检验
又称为任意分布检验(distribution-free test),不以特定的总体分布为前提,也不针对总体分布的几个参数做推断。非参数检验一般不直接用样本观察值做数据分析,统计量的计算基于原始数据在整个样本中按大小所占位次。