理论分布和抽样分布------(三)连续型随机变量的概率分布(正态分布)
正态分布(normal distribution),是连续性变数的理论分布。
日常生活中许多数量指标总是正常范围内有差异。偏离正常,表现过高或过低的情况总是比较少,且越不正常的可能性越少,这就是所谓的常态或“正态”,可以用正态分布的理论及由正态分布衍生出来的方法来研究。一般作物产量和许多经济性状的数据均表现属正态分布。
在适当条件下,可用来做二项分布及其它间断性或连续性变数分布的近似分布,就能用正态分布代替其他分布以计算概率分布和进行统计推论。
有些总体不做正态分布,但从总体中抽出的样本平均数及统计数的分布,在样本容量适当大时趋近正态分布,可研究统计数的抽样分布。
1、二项分布的极限——正态分布
正态分布的概率密度函数:
y:所研究的变数;是某一定值y出现的函数值,概率密度函数,曲线y值的纵轴高度(N:正态曲线);
:总体参数,所研究总体平均数,不同正态分布可有不同
,但某一总体的
是一常数;
:总体参数,所研究总体标准差,不同正态分布可有不同
,但某一总体的
是一常数。
y是从负无穷大到正无穷大的数值区间中的一个点,讨论变量处在这个点的概率是没意义的,且从正态总体抽取的变数资料的每一观察值均是具有一定概率的数值区间中抽取的,所以讨论正态变数在某一取值区间的概率才有意义,故称概率密度函数而非概率函数,以区别于离散型分布的概率函数。
2、正态分布曲线的特性
(1)对称性,以 为对称轴,向左右两侧作堆成分布,是一个对称曲线。从
所竖立的纵轴
是最大值,所以正态分布曲线的算术平均数、中数和众数是相等的,三者均合一位于
点上。
(2)正态分布曲线以参数和
的不同而表现为一系列曲线,它是一个曲线簇而不仅是一个曲线。
确定它在横轴上的位置,
确定它的变异度,不同
和
的正态总体具有不同的曲线和变异度,所以任何一个特征正态曲线必须在其
和
确定后才能确定。
(3)正态分布资料的次数分布表现为多数次数集中于算术平均数附近,离平均数越远,其相应的次数越少;且在
左右相等
范围内具有相等次数;在
以上其次数极少。
(4)正态曲线在处有“拐点”。曲线两尾向左右伸展,永不接触横轴,所以当
,分布曲线以y轴为渐近线,因此曲线全距从
。
(5)正态曲线与横轴之间的总面积等于1,因此在曲线下横轴的任何定值,例如从 到
之间的面积,等于介于这两个定值间面积占总面积的成数,或者说等于y落于这个区间内的概率。正态曲线的任何两个y定值
与
之间的面积或概率乃完全以曲线的
和
而确定的。
几对常见的区间与其相对应的面积或概率的数字:
3、计算正态分布曲线区间面积或概率的方法
在一个连续性随机变数中,不能够计算某一定值的概率,而只能求某一区间或范围的概率。
一定区间概率大的表示方法:
称为正态分布的累积函数,具有平均数
和标准差
。
给予变数任何一定值,如a,可计算y≤a的概率为
a≤y≤b,
正态分布的密度函数是按y值将累积函数
求其导数得之。
,实际应用中,y值取
,相当于6个
范围内,
的值可以相当于差不多从0到接近于1。
由于不同总体具有不同的和
,为了便于计算,可转换为标准化正态分布方程式,用
变数替代
变数以计算概率。u变数具有正态分布特性,具
=0,
=1。