整理总结:深入浅出统计学——再谈正态分布的运用
参考资料:电子工业出版社的《深入浅出统计学》
前言
当一个问题使用二项分布和泊松分布的计算量都过大时,可以考虑尝试用正态分布进行近似求解。
本篇目录
具体内容
一、正态分布的复合
1、X+Y的复合
在研究综合正态变量的时候,想办法求出X+Y的分布是十分有用的。如果独立随机变量X和Y均符合正态分布,那么可以得知X+Y也一定符合正态分布。在两个变量相加之后,实际上会增大了变异性,因此新分布的方差会增大,图形拉长,而为了保持图形总面积始终为1,因此图形同时也随之变扁。
2、X-Y的复合
有时候我们并非要求X+Y的概率,而是求X-Y的概率。如果独立随机变量X和Y均符合正态分布,那么可以得知X-Y也一定符合正态分布。但值得注意的是,尽管我们用X-Y,但实际上变异性仍然如X+Y一般增大了。
二、复合与线性变换的区别
1、线性变换
1、线性变换描述的是概率分布中的数值在大小方面的基本变化,比如我们想算的是4个成年人的体重导致翻车的概率,而不是一个成年人的体重翻四倍导致翻车的概率。值得指出的是,选择不同的方法解释——复合或者线性变换,会导致计算结果出现差异。
2、如果我们有一个X的线性变换aX+b,其中若X为正态分布——X~N(),那么aX+b也属于正态分布。
2、复合
当我们实际需要计算的是4位成年人的综合体重的概率分布,而不是对某一成年人的体重进行变换时,可以采用复合。
三、用正态分布近似二项分布
1、基本条件
当二项分布的形状看上去和正态分布的形状十分相似,那么在这种情况下,我们可以用正态分布代替二项分布。更加细致化的话,一般来说,当np和nq双双大于5时,可用正态分布近似代替二项分布。
2、注意事项
我们通过二项分布X~B(12,0)求P(X <a)的概率,若直接将二项分布转化成其对应的正态分布X~ N(6,3),,用二项分布计算的结果是0.387,用正态分布计算的是0.5,此时将发现近似结果出现较大的误差。这主要是因为前者是离散分布,而后者是连续分布。
因此我们在进行近似计算时,需要先考虑连续性修正,比如修改为求P(X<5.5),此时结果为0.3859,非常近似二项分布的结果。
3、二项分布的近似方法的选择
如果X~B(n,p),当np>5且nq>5时,使用正态分布近似代替二项分布。
如果n>50且p<0.1,则可以使用泊松分布近似代替二项分布。
四、用正态分布近似泊松分布
1、基本条件
当很小时,泊松分布的曲线左偏,与正态分布对称的曲线不符,因此不适用。一般而言,如果X~Po()且 >15,我们就能用X~N(,)来近似计算。
2、注意事项
和正态分布近似二项分布一般,也需要先进行连续型修正才行。