概率论知识点总结
分布
离散型:
- 0-1分布:
- 二项分布:n次伯努利事件,每次的成功率都为P, 则n次实验,成功率总数x复合二项分布。 应用:类似于有放回的抽样
- 几何分布:独立重复的做一些列的伯努利实验,每次成功率为p,则第k次才能首次成功的概率。
这两者是有放回的抽样,因此这两者每次实验的发生结果概率不变。但是超几何是可变的
- 超几何分布: 类似无放回的抽样。从含有m个次品的m个物品中,抽出x个物品,问x个物品中次品的个数复合超几何分布。
- 泊松分布:
应用:适合于描述单位时间内随机事件发生的次数。
泊松分布的期望和方差均为 。如果某事件以固定强度λ,随机且独立地出现,则单位时间内该事件发生的次数
举例:假如我平均每天去超市三次,那我明天会去超市几次?这里的平均每天去超市三次就是指此事件的固定强度λ=3,而不是一定去三次。
连续性:
- 均匀分布:
X在区间【a,b】上分布概率是等可能的,取决于a.b的值
应用:求点落在某个固定区域内的概率
- 指数分布:
应用:可以用来表示独立随机事件发生的时间间隔。可用来描述长寿命电子元件的使用寿命。
指数分布的无记忆性:如果一个随机变量呈指数分布,P{X>t+n |X>t}=P{X>n}(X> t的情况下,大于t+的概率等于X > n的概率)
区分指数分布和泊松分布:指数描述随机事件单位时间内发生的次数,而指数分布描述随机事件发生的时间间隔。
8, 正态分布:高斯分布
应用:当在大量随机变量上重复很多次实验时,它们的分布总和将非常接近正态分布。
自然界、人类社会、中的很多现象均服从正态形式分布
(中心极限定理)
数字特征:
- 方差:
每个样本值与全体样本的平均数之差的平方值的平均数
一个样本的方差越大说明数据的稳定性差 波动比较大;方差小说明数据比较稳定 数据在平均值上下波动的幅度小
- 期望:
表示全体样本的均值。
大数定律规定,随着重复次数接近无穷大,数值的算术平均值几乎肯定地收敛于期望值
- 协方差:Cov(x,y) 衡量不同两个变量的总体误差。如果两个变量的变化趋势一致,那么协方差就是正的。如果变量相同,则就是方差。
- 矩:
K阶原点矩是 E(X^k),对x的k次方求期望。一阶原点矩是期望。
K 阶中心距E(x-E(x) )^K, 对x-Ex 的K 次方求期望。二阶中心距是方差
- 相关系数
研究变量之间线性相关程度的量
- 独立于不相关:
- 独立:两个随机变量之间独立,即一个量改变不会引起另一个量的改变。P(AB)=P(A)*P(B)
- 不相关:相互间没有线性关系。关系系数 = 0
相互独立一定不相关,反过来不对。
大树定律和中心极限定律
切比雪夫不等式(定理)
1.切比雪夫大数定律:
条件:随机变量序列 两两相对独立,且期望方差都存在。
公式: N趋向无穷时,样本平均数 同 总体平均数 的差小于任意正数的概率是1
2.伯努利大数定律:
条件:随机变量符合二项分布时(每次事件都是伯努利事件)
试验次数n趋向于无穷大时,事件A在n重伯努利事件中发生的频率fn/n无限接近于A在一次实验中发生的概率p
。
3. 辛钦大数定律:
设n个 随机变量序列是独立同分布的,且期望值存在
则,算术平均值 和数学期望 的差无限趋近于 无穷小
4. 列维-林德伯格
中心极限定律:
N 个随机变量的序列,独立同分布,有数学期望和方差。则n无穷大时, 随机变量序列 的部分和 的分布渐近于正态分布
数理统计:‘
总体:研究对象的全体
样本:X1,,xn相互独立,与总体同分布。
统计量:关于样本的已知函数;其作用是把样本中有关总体的信息汇集起来;统计量依赖且只依赖于样本x1,x2,…xn;
统计抽样分布和正太总体的抽样分布:
正态总体的参数区间估计及假设检验
- X2卡方分布: n个样本 相互独立,都服从标准正太N(0,1)
这多个随机变量,都相互独立,服从标准正太分布,则她们的平方和服从卡方分布。
使用:用来估测方差。均值已知,用X2(n) 估测,均值位置,用X2(n-1)
- T分布:偶函数,n充分大时,t(n) 分布近似于N(0,1) 分布。
比较类似与正太分布。
应用:方差未知时,估测总体样本的均值
- F分布:
非对称分布,有两个自由度。
F分布的商, 可用来正态总体的参数区间估计 及 假设检验
- 正太总体的抽样分布
如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值
参数估计
估计形式上分为点估计和区间估计。其中点估计分为,无偏、最大似然、
点估计
因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示
样本统计量来估计总体参数
- 无偏估计
设 thita 帽是参数shita 的估计量, 根据等式E(thita hat) = thita 估计得出thita hat 的值
如果两个估计量都是thita的无偏估计量,那么方差小的估计量更有效。
- 矩估计
样本距 函数 估计总体距的函数,求出要估计的参数
最简单的矩估计法是用一阶样本原点矩来估计总体的期望而用二阶样本中心矩来估计总体的方差
样本据:样本k阶原点矩和样本k阶中心距、方差、均值等
- 最大似然估计
求 使似然函数达到最大值的参数值thita hat,
方法:L(thita) 的函数值,或ln(L(thita)) 求关于thita的导 = 0列等式。
,
区间估计
估计出总体参数的一个区间范围
如果估测的参数处在这个区间的概率是 1-a, 则这个区间就是置信度为1-a的置信区间
估计:
1 估测方差用卡方,估测均值,用正太或t,, 方差已知用N, 未知用T。
假设检验:
根据样本,估计 关于总体的某假设H0的真伪,应该拒绝还是接受
u检验:总体标准差σ已知
t检验:用于样本含量较小(如n<60),总体标准差σ未知,呈正态分布的计量资料
F检验:用来检验两总体的方差是否相等,如果相等,则样本方差的比值符合F分布。