《概率论与数理统计教程》中的一些知识点

  1. 概率的定义
  • 随机现象的所有可能结果构成样本空间Ω={ω}\Omega = \{ \omega \},其中ω\omega称为样本点,认识随机现象需要首先列出样本空间。
  • F\mathcal{F}Ω\Omega的某些子集构成的集合类,且满足:(1)ΩF(2)AFAˉF(3)AnFn=1AnF(1)\Omega \in \mathcal{F}\\ (2)若A\in\mathcal{F},则\bar{A}\in\mathcal{F}\\ (3)若A_n\in\mathcal{F},则可列并\bigcup_{n=1}^{\infty}A_n \in \mathcal{F}则称F\mathcal{F}为一个事件域,或σ\sigma代数。将(Ω,F)(\Omega, \mathcal{F})称为可测空间,可测空间中的每个集合都是有概率而言的事件。
  • Ω\Omega为样本空间,F\mathcal{F}为事件域,对任意事件AFA\in \mathcal{F},若定义在F\mathcal{F}上的实值函数P(A)P(A)满足:1P(A)>02P(Ω)=13A1,A2,,AnP(i=1Ai)=i=1P(Ai)(1)非负性公理:P(A) > 0\\ (2)正则性公理:P(\Omega) = 1 \\ (3)可列可加性定理:若A_1,A_2,\cdots,A_n互不相容,则P(\bigcup_{i=1}^{\infty}A_i) = \sum_{i=1}^{\infty} P(A_i),则称P(A)P(A)AA的概率,将(Ω,F,P)(\Omega,\mathcal{F},P)称为概率空间。

由此则得到了概率的公理化定义:概率是建立在样本空间的某些特定子集上的、满足特定条件的实值函数。
2. 确定概率的古典方法

古典方法是建立在经验事实基础上,对被考察事件的可能性进行逻辑分析后得出的该事件的结论。
古典方法定义的概率需要满足:
(1)所涉及的随机现象只有有限种结果。
(2)每个样本点发生的可能性相等。
(3)若事件A中包含k个样本点,则事件A的概率为:P(A)=knP(A)=\frac{k}{n}

其中尤其需要注意定义(2),当样本点发生的可能性不等时,是不能直接计算概率的。例如二孩悖论中讨论的:若取基本事件为Ω={}\Omega = \{两个男孩,两个女孩,一男一女\},则其不符合定义,因为”两个女孩“发生的概率为1/21/2

  1. 为什么要研究概率分布

概率分布是全面地、动态地描述随机变量取值的概率规律,从中可以提取有关随机变量的信息,研究更深层次的问题。

  1. 随机变量的定义
  • 将定义在样本空间Ω\Omega上的实值函数X=X(ω)X=X(\omega)称为随机变量
  • 用随机变量代表事件:若BB为实数组成的集合,则{XB}\{X\in B\}表示随机事件:{ω:X(ω)B}Ω\{ \omega:X(\omega) \in B\} \subseteq \Omega
  • XX为随机变量,xx为任意实数,称F(x)=P(Xx)F(x) = P(X \le x)为随机变量XX的分布函数

总结一下,我们有以下映射关系:
P:FRX:ΩRF:RR P: \mathcal{F} \to R \\ X : \Omega \to R \\ F : R \to R
5. 分布函数的定义
主要是需要记忆的内容,包括三个方面:
(1)单调性
(2)有界性
(3)右连续性

  1. 连续随机变量的概率密度函数
    连续型随机变量概率密度函数的来源比较有趣:
    首先想象对来自某连续总体的样本进行频数统计,横轴表示单位长度,纵轴表示落到单位长度内的样本频数。通过这个频数统计图可以粗略了解总体分布情况。
    然后将纵轴由频数换成频率,以保证图形的稳定性,并且不断缩小横轴上的单位长度,当单位长度趋于0时且样本数量足够多时,频率统计图会变得平滑,此时纵轴可以表示单位长度上的概率。
    将这样一条曲线称为概率密度曲线。注意概率密度曲线的纵轴不表示该点取值的概率大小,只有乘上微元后用面积表示才为概率:p(x)dx=P(x<X<x+dx) p(x)dx = P(x < X < x + dx)
    这直接导致连续型随机变量在任一点上的概率为0:P(X=a)=aap(x)dx=0P(X=a) = \int_a^a p(x) dx = 0所以说概率为0的事件不一定是不可能事件。
    而这又引出另一个有趣的事情:在若干点上改变概率密度函数的取值,不会影响分布函数的值。假设有这样两个密度函数:p1(x)={1/a,0xa0,otherwise     p2(x)={1/a,0<x<a0,otherwisep_1(x) = \begin{cases} 1/a , 0 \le x \le a \\ 0, otherwise\end{cases}\ \ \ \ \ p_2(x)=\begin{cases} 1/a , 0 < x < a \\ 0, otherwise\end{cases},虽然这两个密度函数并不相同,即p1(x)p2(x)p_1(x) \ne p_2(x),但是P(p1(x)p2(x))=P(X=0)+P(X=a)=0P(p_1(x) \ne p_2(x) ) =P(X=0) + P(X=a) = 0。因此在概率意义上,这两个密度函数不存在差别,称p1(x),p2(x)p_1(x),p_2(x)几乎处处相等
    这告诉我们,在概率论中可以将取值为0的点剔除后讨论两个函数之间的随机问题。
  2. 切比雪夫不等式

切比雪夫不等式:随机变量XX的数学期望E(X)E(X)和方差D(X)D(X)都存在,则对任意常数ε>0\varepsilon > 0,都有:P(XE(X)ε)D(X)ε2P(|X-E(X)| \ge \varepsilon) \le \frac{D(X)}{\varepsilon^2}

切比雪夫不等式说明了这样一个事实:随机变量的取值偏离其期望值的偏差存在一个概率上界,这个上界与方差有关,方差越小,上界越小。
进一步,可以得到下面这个定理:

若随机变量XX的方差D(X)=0D(X) = 0,则D(X)=0D(X) = 0的充要条件是XX几乎处处为某个常数,即P(X=a)=1P(X=a) = 1

另外需要知道,用随机变量偏离均值的程度描述随机变量的离散程度是合适的,因为cE(X),E(XE(X))2<E(Xc)2\forall c\ne E(X), E(X-E(X))^2 < E(X-c)^2

  1. 常见分布
  • 二项分布:描述一系列相互独立的伯努利实验的结果。
  • 泊松分布:描述单位时间内的计数过程。可以用泊松分布近似二项分布:若当nn\to\infty时,有npnλnp_n\to\lambda,则有limnCnkpnk(1pn)(nk)=λkk!eλ\lim_{n\to \infty} C_n^kp_n^k (1-p_n)^{(n-k)} = \frac{\lambda ^k}{k!} e^{-\lambda}
  • 超几何分布:常用于抽样中。当抽取样本数nn远小于总数NN时,可以用二项分布近似超几何分布。
  • 正态分布:由于中心极限定理的存在(若一个随机变量是由大量微小、独立的随机因素的叠加结果,则这个变量可以认为服从正态分布),很多随机变量都可以用正态分布近似描述。
    正态分布的检验方法也有很多,除了统计检验法之外,还有一些描述统计方法:QQQ-Q图,偏度/峰度检验法,以及3σ3\sigma原则法:若随机变量取值满足3σ3\sigma原则,则可以认为该随机变量近似服从正态分布;若随机变量的3σ3\sigma准则偏差较大,则认为不服从正态分布。
    以上一元总体的正态分布检验法也可以拓展到多元总体,这里即用χ2\chi^2图法。
  • 指数分布:一种常见偏态分布,常用于描述各种”寿命“分布,如通话时间、排队时间等。
    指数分布与泊松分布之间存在这样的联系:若某事件在长为tt的时间内发生次数N(t)N(t)服从参数为λt\lambda t泊松分布,则相邻两次发生的时间间隔TT服从参数为λ\lambda的指数分布。
  1. 重要定理:

若随机变量XX的分布函数FX(x)F_X(x)为严格递增的连续函数,其反函数存在,则Y=FX(x)Y=F_X(x)服从(0,1)(0,1)上的均匀分布。

这个定理用于统计计算中产生满足各种分布的随机数的算法。
例如,一般计算机中只能产生(伪)均匀分布的随机数uiu_i,若要产生服从指数分布Exp(λ)Exp(\lambda)的随机数,则可以通过其分布函数与均匀分布相关联:
指数分布的分布函数为F(x)=1eλxF(x) = 1- e^{-\lambda x},随机变量U=F(X)U= F(X)服从均匀分布,于是若产生均匀分布后,利用变换:X=1λln11UX= \frac 1 {\lambda} \mathrm{ln} \frac1 {1-U},即可得到满足指数分布的随机数。
10. 偏度和峰度
XXkk阶原点矩:μk=E(Xk)\mu_k = E(X^k)
XXkk阶中心矩:νk=E(XE(X))k\nu_k = E(X-E(X))^k

  • 偏度系数:βs=ν3ν23/2\beta_s = \frac{\nu_3}{\nu_2^{3/2}},描述随机变量的分布偏离对称性的程度。
  • 峰度系数:βk=ν4ν223\beta_k = \frac{\nu_4}{\nu_2^2} - 3,用于描述分布尖峭程度和尾部粗细。
    (1)峰度系数不是指密度函数的峰值高低。比如正态分布的峰度为0,与其峰值无关。
    (2)将峰度系数进行改写:βk=E(X4)E(Z4)\beta_k = E(X^{*4})-E(Z^4),其中ZZ为标准正态变量。因此峰度系数表示XX的标准化变量与标准正态变量的四阶原点矩之差。若βk>0\beta_k >0,表明标准化后的变量分布比标准化正态分布更为尖峭、尾部更粗。
  1. 联合分布
    为什么要研究多元随机变量的联合分布?
    因为联合分布中包含了以下三个方面的信息:
  • 每个分量的(边际)分布
  • 两个分量之间的关联程度(协方差、相关系数)
  • 给定一个分量时,其余分量的(条件)分布
    因此联合分布比边际分布要包含了更多的信息。
  1. 一些公式
    联合分布函数:F(x,y)=P(Xx,Yy)F(x,y) = P(X \le x,Y \le y)
    边际分布函数:$F_X(x) = \lim_{y\to \infty} F(x,y) $
    边际密度函数:pX(x)=p(x,y)dyp_X(x) = \int_{-\infty}^{\infty} p(x,y)dy,(固定xx,把yy积掉)
  2. 求多维随机变量函数的分布
    这里常常会用到“卷积公式”,但我个人不太喜欢套公式,毕竟这也只是变量变换法的一种特殊情形,不过其中的难点在于进行变量变换后积分区域该如何确定。用一道例题来说明:

已知随机变量X,YX,Y独立同分布于U(0,1)U(0,1),求随机变量Z=X+YZ = X+ Y的密度函数pZ(z)p_Z(z)

分析:X,YX,Y的联合概率密度函数为:p(x,y)={1,0<x<10<y<10,otherwisep(x,y) = \begin{cases} 1, 0<x<1且0<y<1 \\ 0, otherwise\end{cases}
利用变量变换法:令{Z=X+YW=Y,()\begin{cases} Z = X+ Y \\ W = Y \end{cases}, (*){X=ZWY=W\begin{cases} X = Z - W \\ Y = W \end{cases}
于是Z,WZ,W的联合密度函数为:
p(z,w)={1,(z,w)D0,  otherwise p(z,w) = \begin{cases} 1, (z,w) \in D \\ 0, \ \ otherwise\end{cases}
难点便在于如何求解DD:由(*)式可得:Z=X+WZ = X + W绘制ZWZ-W坐标系,将XX视为常数,即可确定DD
首先由于W=Y(0,1)W = Y \in (0,1),因此可以确定WW的取值范围,然后将XX视为常数,得到$ W<Z = X + W < 1 + W。于是可知D$为如下阴影部分:《概率论与数理统计教程》中的一些知识点由此求边际函数即可。
14. 重期望
先分别介绍条件密度函数、全概率公式、贝叶斯公式

  • 条件密度函数:给定X=xX = x条件下的YY的条件密度函数为:p(yx)=p(x,y)pX(x) p(y|x) = \frac{p(x,y)}{p_X(x)}注意条件密度函数是条件X=xX= x的函数,
  • 全概率公式:p(x,y)=pX(x)p(yx)p(x,y) = p_X(x) p(y|x)
  • 贝叶斯公式:p(xy)=pX(x)p(yx)pX(x)p(yx)dxp(x|y) = \frac{p_X(x) p(y|x)}{\int _{-\infty}^{\infty} p_X(x) p(y|x)dx}
  • 条件数学期望:E(XY=y)=xp(xy)dxE(X|Y=y) = \int_{-\infty}^{\infty} xp(x|y) dx因此条件数学期望也是yy的函数。实际上可以将E(XY=y)E(X|Y=y)视为随机变量Y=yY=yE(XY)E(X|Y)的取值,因此E(XY)E(X|Y)也是随机变量,且是随机变量YY的函数。既然是随机变量,就有对应的概率分布,并且能够求得数学期望。于是有以下较为深刻的结果:
  • 重期望:E(X)=E(E(XY))E(X) = E(E(X|Y))

证明:E(E(XY))=E(XY=y)pY(y)dy=(xp(xy)dx)pY(y)dy=xp(x,y)dxdy=E(X)E(E(X|Y)) = \int E(X|Y=y)p_Y(y)dy \\ = \int (\int xp(x|y)dx) p_Y(y) dy \\ = \int \int xp(x,y) dx dy\\ = E(X)

  1. 大数定律
    大数定律主要讨论在何种条件下,随机变量序列的算数平均依概率收敛到均值的算数平均。
  • 伯努利大数定律

SnS_n为n重伯努利试验中事件AA发生的次数,pp为每次试验中AA发生的概率,则对任意ε>0\varepsilon>0,有limnP(Snnp<ε)=1\lim_{n \to \infty} P(|\frac{S_n}n - p| < \varepsilon) = 1

伯努利大数定律揭示了频率确定概率的理论依据。
利用伯努利大数定律可以计算定积分的近似值:
如对于某函数f(x):0f(x)1f(x):0 \le f(x) \le 1,求其在[0,1][0,1]区间上的积分:01f(x)dx\int_0^1 f(x) dx。设二维随机变量(X,Y)(X,Y)服从[0,1]×[0,1][0,1]\times [0,1]上的均匀分布,事件A={Yf(X)}A=\{ Y \le f(X)\},计算AA的概率:p=P(Yf(X))=010f(x)dydx=01f(x)dxp = P(Y\le f(X)) = \int _0^1 \int_0 ^{f(x)} dy dx = \int _0^1 f(x)dx
因此可以通过蒙特卡洛模拟的方法,以事件AA发生的频率作为积分值的估计。

  • 切比雪夫大数定律

X1,X2,,Xn,X_1,X_2,\cdots,X_n,\cdots互不相关,D(Xi)D(X_i)均存在,且有共同方差上界,则随机变量序列{Xn}\{X_n\}满足大数定律:limnP(1ni=1nXi1ni=1nE(Xi)<ε)=1\lim_{n\to\infty}P(|\frac 1 n\sum_{i=1}^n X_i - \frac 1 n \sum_{i=1}^nE(X_i) | < \varepsilon) = 1

根据大数定律,不仅可以得出独立同分布的样本均值趋近于总体均值,还可以得出离差平方的均值趋于总体方差:

{Xn}\{X_n\}是独立同分布随机变量序列,且四阶中心矩存在,var(Xn)=σ2\mathrm{var}(X_n) = \sigma^2,则有对于ε,limnP(1ni=1n(Xiμ)2σ2ε)=0\forall \varepsilon, \lim_{n\to\infty} P(|\frac1 n \sum_{i=1}^n (X_i - \mu)^2 - \sigma^2| \ge \varepsilon) = 0

  • 马尔科夫大数定律

对于随机变量序列{Xn}\{X_n\},若1n2Var(i=1nXi)0,n\frac{1}{n^2}\mathrm{Var}(\sum_{i=1}^n X_i) \to 0, n\to \infty,则{Xn}\{X_n\}满足大数定律:limnP(1ni=1nXi1ni=1nE(Xi)<ε)=1\lim_{n\to\infty}P(|\frac 1 n\sum_{i=1}^n X_i - \frac 1 n \sum_{i=1}^nE(X_i) | < \varepsilon) = 1

马尔科夫大数定律的特点在于更进一步放松了对{Xn}\{X_n\}的要求,即不要求同分布也不要求不相关。

  • 辛钦大数定律

$ {X_n}是独立同分布随机变量序列,若E(X_i)存在,则 {X_n}服从大数定律。limnP(1ni=1nXiE(Xi)<ε)=1\lim_{n\to\infty}P(|\frac 1 n\sum_{i=1}^n X_i - E(X_i) | < \varepsilon) = 1$

根据辛钦大数定律,可以用观察值的平均近似随机变量的均值。
利用辛钦大数定律,可以得出另一种求定积分的近似结果的方法:
若要计算定积分J=01f(x)dxJ = \int_0^1 f(x)dx,可以先产生在[0,1][0,1]上均匀分布的随机变量XX,则Y=f(X)Y=f(X)的数学期望:E(Y)=01f(x)dx=JE(Y) = \int_0^1 f(x)dx = J,从而可以通过计算f(X)f(X)的均值得到定积分的估计值。
16. 中心极限定理
中心极限定理主要讨论在什么条件下,独立随机变量和的分布函数收敛于正态分布。

  • 林德伯格-莱维中心极限定理

{Xn}\{X_n\}是独立同分布的随机变量序列,且E(Xi)=μ,D(Xi)=σ2E(X_i)=\mu, D(X_i) = \sigma^2,记随机变量和的标准化变量为Yn=X1+X2++XnnμσnY_n^* = \frac{X_1+X_2+\cdots + X_n - n\mu}{\sigma \sqrt{n}}
则对任意实数yy,有limnP(Yny)=Φ(y)\lim_{n \to \infty} P(Y_n^* \le y) = \Phi(y)

林德伯格-莱维中心极限定理表明,无论独立同分布随机变量原来的分布如何,只要nn足够大,就能用正态分布逼近随机变量和的分布。这也表明可以用正态分布近似拟合误差分布(因为误差是由很多微小因素累加而成)

  • 棣莫弗-拉普拉斯中心极限定理

nn重伯努利实验中,事件AA在每次试验中出现的概率为pp,记SnS_nnn次试验中事件AA出现的次数,记标准化变量为Yn=SnnpnpqY_n^* = \frac{S_n - np}{\sqrt{npq}}则对任意yy,有limnP(Yny)=Φ(y)\lim_{n\to \infty} P(Y_n^* \le y ) = \Phi(y)

棣莫弗-拉普拉斯中心极限定理又称为二项分布的正态近似。由于二项分布是离散分布,正态分布是连续分布,因此在近似时还常进行一些修正:P(k1<Sn<k2)=P(k10.5<Sn<k2+0.5)P(k_1 < S_n < k_2) = P(k_1 - 0.5 < S_n < k_2 +0.5)

  • 林德伯格中心极限定理

林德伯格条件:设独立随机变量序列{Xn}\{X_n\},随机变量和Yn=X1++XnY_n = X_1 + \cdots + X_n,则E(Yn)=μ1++μn,σ(Yn)=σ12++σn2BnE(Y_n) = \mu_1 +\cdots + \mu_n, \sigma(Y_n) = \sqrt{\sigma_1^2 + \cdots + \sigma_n^2} \triangleq B_n若对任意τ>0\tau >0,都有limn1τ2Bn2i=1nxμi>τBn(xμi)2pi(x)dx=0\lim_{n\to \infty} \frac{1}{\tau^2B_n^2} \sum_{i=1}^n \int _{|x-\mu_i|>\tau B_n}(x-\mu_i)^2p_i(x)dx = 0,则称{Xn}\{X_n\}满足林德伯格条件,此时随机变量和中的每一项都“均匀地小”,没有突出作用的项。

设独立随机变量序列{Xn}\{X_n\}满足林德伯格条件,则对任意xx,有limnP(i=1nXii=1nμiσ12++σn2x)=Φ(x)\lim_{n\to \infty}P(\frac{\sum_{i=1}^n X_i - \sum_{i=1}^n \mu_i}{\sqrt{\sigma_1^2+\cdots + \sigma_n^2}} \le x) = \Phi(x)

  • 李雅普诺夫中心极限定理

设独立随机变量序列{Xn}\{X_n\},若存在δ>0\delta>0,满足limn1Bn2+δi=1nE(Xiμi2+δ)=0\lim_{n \to \infty} \frac{1}{B_n^{2+\delta}}\sum_{i=1}^n E(|X_i-\mu_i|^{2+\delta}) = 0则该随机变量序列满足中心极限定理。