- 概率的定义
- 随机现象的所有可能结果构成样本空间Ω={ω},其中ω称为样本点,认识随机现象需要首先列出样本空间。
- 设F为Ω的某些子集构成的集合类,且满足:(1)Ω∈F(2)若A∈F,则Aˉ∈F(3)若An∈F,则可列并n=1⋃∞An∈F则称F为一个事件域,或σ代数。将(Ω,F)称为可测空间,可测空间中的每个集合都是有概率而言的事件。
- 设Ω为样本空间,F为事件域,对任意事件A∈F,若定义在F上的实值函数P(A)满足:(1)非负性公理:P(A)>0(2)正则性公理:P(Ω)=1(3)可列可加性定理:若A1,A2,⋯,An互不相容,则P(i=1⋃∞Ai)=i=1∑∞P(Ai),则称P(A)为A的概率,将(Ω,F,P)称为概率空间。
由此则得到了概率的公理化定义:概率是建立在样本空间的某些特定子集上的、满足特定条件的实值函数。
2. 确定概率的古典方法
古典方法是建立在经验事实基础上,对被考察事件的可能性进行逻辑分析后得出的该事件的结论。
古典方法定义的概率需要满足:
(1)所涉及的随机现象只有有限种结果。
(2)每个样本点发生的可能性相等。
(3)若事件A中包含k个样本点,则事件A的概率为:P(A)=nk
其中尤其需要注意定义(2),当样本点发生的可能性不等时,是不能直接计算概率的。例如二孩悖论中讨论的:若取基本事件为Ω={两个男孩,两个女孩,一男一女},则其不符合定义,因为”两个女孩“发生的概率为1/2
- 为什么要研究概率分布
概率分布是全面地、动态地描述随机变量取值的概率规律,从中可以提取有关随机变量的信息,研究更深层次的问题。
- 随机变量的定义
- 将定义在样本空间Ω上的实值函数X=X(ω)称为随机变量
- 用随机变量代表事件:若B为实数组成的集合,则{X∈B}表示随机事件:{ω:X(ω)∈B}⊆Ω
- 设X为随机变量,x为任意实数,称F(x)=P(X≤x)为随机变量X的分布函数
总结一下,我们有以下映射关系:
P:F→RX:Ω→RF:R→R
5. 分布函数的定义
主要是需要记忆的内容,包括三个方面:
(1)单调性
(2)有界性
(3)右连续性
- 连续随机变量的概率密度函数
连续型随机变量概率密度函数的来源比较有趣:
首先想象对来自某连续总体的样本进行频数统计,横轴表示单位长度,纵轴表示落到单位长度内的样本频数。通过这个频数统计图可以粗略了解总体分布情况。
然后将纵轴由频数换成频率,以保证图形的稳定性,并且不断缩小横轴上的单位长度,当单位长度趋于0时且样本数量足够多时,频率统计图会变得平滑,此时纵轴可以表示单位长度上的概率。
将这样一条曲线称为概率密度曲线。注意概率密度曲线的纵轴不表示该点取值的概率大小,只有乘上微元后用面积表示才为概率:p(x)dx=P(x<X<x+dx)
这直接导致连续型随机变量在任一点上的概率为0:P(X=a)=∫aap(x)dx=0所以说概率为0的事件不一定是不可能事件。
而这又引出另一个有趣的事情:在若干点上改变概率密度函数的取值,不会影响分布函数的值。假设有这样两个密度函数:p1(x)={1/a,0≤x≤a0,otherwise p2(x)={1/a,0<x<a0,otherwise,虽然这两个密度函数并不相同,即p1(x)=p2(x),但是P(p1(x)=p2(x))=P(X=0)+P(X=a)=0。因此在概率意义上,这两个密度函数不存在差别,称p1(x),p2(x)几乎处处相等。
这告诉我们,在概率论中可以将取值为0的点剔除后讨论两个函数之间的随机问题。
- 切比雪夫不等式
切比雪夫不等式:随机变量X的数学期望E(X)和方差D(X)都存在,则对任意常数ε>0,都有:P(∣X−E(X)∣≥ε)≤ε2D(X)
切比雪夫不等式说明了这样一个事实:随机变量的取值偏离其期望值的偏差存在一个概率上界,这个上界与方差有关,方差越小,上界越小。
进一步,可以得到下面这个定理:
若随机变量X的方差D(X)=0,则D(X)=0的充要条件是X几乎处处为某个常数,即P(X=a)=1
另外需要知道,用随机变量偏离均值的程度描述随机变量的离散程度是合适的,因为∀c=E(X),E(X−E(X))2<E(X−c)2
- 常见分布
- 二项分布:描述一系列相互独立的伯努利实验的结果。
- 泊松分布:描述单位时间内的计数过程。可以用泊松分布近似二项分布:若当n→∞时,有npn→λ,则有limn→∞Cnkpnk(1−pn)(n−k)=k!λke−λ
- 超几何分布:常用于抽样中。当抽取样本数n远小于总数N时,可以用二项分布近似超几何分布。
- 正态分布:由于中心极限定理的存在(若一个随机变量是由大量微小、独立的随机因素的叠加结果,则这个变量可以认为服从正态分布),很多随机变量都可以用正态分布近似描述。
正态分布的检验方法也有很多,除了统计检验法之外,还有一些描述统计方法:Q−Q图,偏度/峰度检验法,以及3σ原则法:若随机变量取值满足3σ原则,则可以认为该随机变量近似服从正态分布;若随机变量的3σ准则偏差较大,则认为不服从正态分布。
以上一元总体的正态分布检验法也可以拓展到多元总体,这里即用χ2图法。
- 指数分布:一种常见偏态分布,常用于描述各种”寿命“分布,如通话时间、排队时间等。
指数分布与泊松分布之间存在这样的联系:若某事件在长为t的时间内发生次数N(t)服从参数为λt泊松分布,则相邻两次发生的时间间隔T服从参数为λ的指数分布。
- 重要定理:
若随机变量X的分布函数FX(x)为严格递增的连续函数,其反函数存在,则Y=FX(x)服从(0,1)上的均匀分布。
这个定理用于统计计算中产生满足各种分布的随机数的算法。
例如,一般计算机中只能产生(伪)均匀分布的随机数ui,若要产生服从指数分布Exp(λ)的随机数,则可以通过其分布函数与均匀分布相关联:
指数分布的分布函数为F(x)=1−e−λx,随机变量U=F(X)服从均匀分布,于是若产生均匀分布后,利用变换:X=λ1ln1−U1,即可得到满足指数分布的随机数。
10. 偏度和峰度
X的k阶原点矩:μk=E(Xk)
X的k阶中心矩:νk=E(X−E(X))k
- 偏度系数:βs=ν23/2ν3,描述随机变量的分布偏离对称性的程度。
- 峰度系数:βk=ν22ν4−3,用于描述分布尖峭程度和尾部粗细。
(1)峰度系数不是指密度函数的峰值高低。比如正态分布的峰度为0,与其峰值无关。
(2)将峰度系数进行改写:βk=E(X∗4)−E(Z4),其中Z为标准正态变量。因此峰度系数表示X的标准化变量与标准正态变量的四阶原点矩之差。若βk>0,表明标准化后的变量分布比标准化正态分布更为尖峭、尾部更粗。
- 联合分布
为什么要研究多元随机变量的联合分布?
因为联合分布中包含了以下三个方面的信息:
- 每个分量的(边际)分布
- 两个分量之间的关联程度(协方差、相关系数)
- 给定一个分量时,其余分量的(条件)分布
因此联合分布比边际分布要包含了更多的信息。
- 一些公式
联合分布函数:F(x,y)=P(X≤x,Y≤y)
边际分布函数:$F_X(x) = \lim_{y\to \infty} F(x,y) $
边际密度函数:pX(x)=∫−∞∞p(x,y)dy,(固定x,把y积掉)
- 求多维随机变量函数的分布
这里常常会用到“卷积公式”,但我个人不太喜欢套公式,毕竟这也只是变量变换法的一种特殊情形,不过其中的难点在于进行变量变换后积分区域该如何确定。用一道例题来说明:
已知随机变量X,Y独立同分布于U(0,1),求随机变量Z=X+Y的密度函数pZ(z)
分析:X,Y的联合概率密度函数为:p(x,y)={1,0<x<1且0<y<10,otherwise
利用变量变换法:令{Z=X+YW=Y,(∗)则{X=Z−WY=W
于是Z,W的联合密度函数为:
p(z,w)={1,(z,w)∈D0, otherwise
难点便在于如何求解D:由(*)式可得:Z=X+W绘制Z−W坐标系,将X视为常数,即可确定D。
首先由于W=Y∈(0,1),因此可以确定W的取值范围,然后将X视为常数,得到$ W<Z = X + W < 1 + W。于是可知D$为如下阴影部分:
由此求边际函数即可。
14. 重期望
先分别介绍条件密度函数、全概率公式、贝叶斯公式
- 条件密度函数:给定X=x条件下的Y的条件密度函数为:p(y∣x)=pX(x)p(x,y)注意条件密度函数是条件X=x的函数,
- 全概率公式:p(x,y)=pX(x)p(y∣x)
- 贝叶斯公式:p(x∣y)=∫−∞∞pX(x)p(y∣x)dxpX(x)p(y∣x)
- 条件数学期望:E(X∣Y=y)=∫−∞∞xp(x∣y)dx因此条件数学期望也是y的函数。实际上可以将E(X∣Y=y)视为随机变量Y=y时E(X∣Y)的取值,因此E(X∣Y)也是随机变量,且是随机变量Y的函数。既然是随机变量,就有对应的概率分布,并且能够求得数学期望。于是有以下较为深刻的结果:
- 重期望:E(X)=E(E(X∣Y))
证明:E(E(X∣Y))=∫E(X∣Y=y)pY(y)dy=∫(∫xp(x∣y)dx)pY(y)dy=∫∫xp(x,y)dxdy=E(X)
- 大数定律
大数定律主要讨论在何种条件下,随机变量序列的算数平均依概率收敛到均值的算数平均。
设Sn为n重伯努利试验中事件A发生的次数,p为每次试验中A发生的概率,则对任意ε>0,有n→∞limP(∣nSn−p∣<ε)=1
伯努利大数定律揭示了频率确定概率的理论依据。
利用伯努利大数定律可以计算定积分的近似值:
如对于某函数f(x):0≤f(x)≤1,求其在[0,1]区间上的积分:∫01f(x)dx。设二维随机变量(X,Y)服从[0,1]×[0,1]上的均匀分布,事件A={Y≤f(X)},计算A的概率:p=P(Y≤f(X))=∫01∫0f(x)dydx=∫01f(x)dx
因此可以通过蒙特卡洛模拟的方法,以事件A发生的频率作为积分值的估计。
设X1,X2,⋯,Xn,⋯互不相关,D(Xi)均存在,且有共同方差上界,则随机变量序列{Xn}满足大数定律:n→∞limP(∣n1i=1∑nXi−n1i=1∑nE(Xi)∣<ε)=1
根据大数定律,不仅可以得出独立同分布的样本均值趋近于总体均值,还可以得出离差平方的均值趋于总体方差:
{Xn}是独立同分布随机变量序列,且四阶中心矩存在,var(Xn)=σ2,则有对于∀ε,limn→∞P(∣n1∑i=1n(Xi−μ)2−σ2∣≥ε)=0
对于随机变量序列{Xn},若n21Var(∑i=1nXi)→0,n→∞,则{Xn}满足大数定律:n→∞limP(∣n1i=1∑nXi−n1i=1∑nE(Xi)∣<ε)=1
马尔科夫大数定律的特点在于更进一步放松了对{Xn}的要求,即不要求同分布也不要求不相关。
$ {X_n}是独立同分布随机变量序列,若E(X_i)存在,则 {X_n}服从大数定律。limn→∞P(∣n1∑i=1nXi−E(Xi)∣<ε)=1$
根据辛钦大数定律,可以用观察值的平均近似随机变量的均值。
利用辛钦大数定律,可以得出另一种求定积分的近似结果的方法:
若要计算定积分J=∫01f(x)dx,可以先产生在[0,1]上均匀分布的随机变量X,则Y=f(X)的数学期望:E(Y)=∫01f(x)dx=J,从而可以通过计算f(X)的均值得到定积分的估计值。
16. 中心极限定理
中心极限定理主要讨论在什么条件下,独立随机变量和的分布函数收敛于正态分布。
设{Xn}是独立同分布的随机变量序列,且E(Xi)=μ,D(Xi)=σ2,记随机变量和的标准化变量为Yn∗=σnX1+X2+⋯+Xn−nμ
则对任意实数y,有n→∞limP(Yn∗≤y)=Φ(y)
林德伯格-莱维中心极限定理表明,无论独立同分布随机变量原来的分布如何,只要n足够大,就能用正态分布逼近随机变量和的分布。这也表明可以用正态分布近似拟合误差分布(因为误差是由很多微小因素累加而成)
n重伯努利实验中,事件A在每次试验中出现的概率为p,记Sn为n次试验中事件A出现的次数,记标准化变量为Yn∗=npqSn−np则对任意y,有n→∞limP(Yn∗≤y)=Φ(y)
棣莫弗-拉普拉斯中心极限定理又称为二项分布的正态近似。由于二项分布是离散分布,正态分布是连续分布,因此在近似时还常进行一些修正:P(k1<Sn<k2)=P(k1−0.5<Sn<k2+0.5)
林德伯格条件:设独立随机变量序列{Xn},随机变量和Yn=X1+⋯+Xn,则E(Yn)=μ1+⋯+μn,σ(Yn)=σ12+⋯+σn2≜Bn若对任意τ>0,都有n→∞limτ2Bn21i=1∑n∫∣x−μi∣>τBn(x−μi)2pi(x)dx=0,则称{Xn}满足林德伯格条件,此时随机变量和中的每一项都“均匀地小”,没有突出作用的项。
设独立随机变量序列{Xn}满足林德伯格条件,则对任意x,有n→∞limP(σ12+⋯+σn2∑i=1nXi−∑i=1nμi≤x)=Φ(x)
设独立随机变量序列{Xn},若存在δ>0,满足n→∞limBn2+δ1i=1∑nE(∣Xi−μi∣2+δ)=0则该随机变量序列满足中心极限定理。