机器学习/深度学习 常用概率知识

1.样本空间

定义:样本空间是一个随机试验所有可能结果的集合。比如:投掷一枚硬币,样本空间为:{正面,反面}。随机试验中的每个可能结果叫做样本点

有些试验有两个或者多个的样本空间,比如:随机抽取一张扑克,样本空间可以是数字,可以是花色。这时候,如果要完整描述一张牌,就要使用到笛卡儿积

χ×y={<x,y>xχyy}(式1) \chi\times\mathbb{y}=\{<x,y>\vert{x}\in\chi\land{y}\in{\mathbb{y}}\}\tag{式1}

2.事件和概率

随机事件或者(简称为事件):是指一个被赋予概率的事物集合,也就是样本空间中的一个子集。概率是指一个随机事件发生的可能性大小,介于0和1之间。

2.1 随机变量

在随机试验中,将试验的结果用XX表示,这个XX会随着试验结果的不同而变化,是样本点的一个函数。把这个数叫做随机变量。比如掷骰子:随机变量XX的取值为{1,2,3,4,5,6}\{1,2,3,4,5,6\}

一个随机事件也可以定义多个随机变量。比如:在掷2个骰子的随机事件中,可以定义随机变量XX为获得点数之和,或者点数之差。分别记为:XYX和Y
X(i,j):=i+j,x=2,3,,12(式2) X(i,j):=i+j,\qquad{x=2,3,\cdots,12}\tag{式2}

Y(i,j):=ij,y=0,1,2,3,4,5(式3) Y(i,j):=i-j,\qquad{y=0,1,2,3,4,5}\tag{式3}

其中,iji,j分别表示两个骰子的点数。

2.1.1 离散随机变量

离散随机变量:如果随机变量XX所有可能取到的值是有限的可以列举的,有NN个有限值:
{x1,,xN}(式4) \{x_1,\cdots,x_N\}\tag{式4}
这样一来,我们就把XX叫做离散随机变量

记每一种可能的取值都有xnx_n的概率,P(X=xn)=p(xn)n{1,,N}P(X=x_n)=p(x_n)\qquad{\forall_n\in\{1,\cdots,N\}}

这里面的p(x1),,p(xN)p(x_1),\cdots,p(x_N)称为离散随机变量的概率分布,或者分布,满足:
n=1Np(xn)=1p(xn)0,n{1,,N}(式5) \sum_{n=1}^{N}p(x_n)=1 \qquad{p(x_n)\ge0,\forall_n\in\{1,\cdots,N\}}\tag{式5}
常见的离散随机变量的概率分布有:

(1)伯努利分布

在一次试验中,事件AA发生的概率为μ\mu,则不发生的概率为:1μ1-\mu。使用XX表示事件AA出现的次数,则XX取值为0和1,分布表示如下:
p(x)=μx(1μ)(1x)(式6) p(x)=\mu^x(1-\mu)^{(1-x)}\tag{式6}
如上分布叫做伯努利分布,也叫做两点分布或者0-1分布

(2)二项分布

nn次伯努利试验中,使用XX表示事件AA出现的次数,则XX取值为:{0,,N}\{0,\cdots,N\},分布表示如下:
P(X=k)=CNkμk(1μ)Nkk=0,,N(式7) P(X=k)=C_N^k{\mu^k(1-\mu)^{N-k}}\qquad{k=0,\cdots,N}\tag{式7}
其中,CNkC_N^k表示二项式系数,表示从NN各元素中取出kk个元素,且不考虑其顺序的组合的总数。

2.1.2 连续随机变量

和离散型随机变量相比,不同之处在于:连续随机变量XX的取值是不可列举的,由全部实数或者由一部分区间组成,比如:
X={xaxb},<a<b<(式8) X=\{x\vert{a\le{x}\le{b}\}},\qquad{-\infty<a<b<\infty}\tag{式8}
这样子就把XX称之为连续随机变量 ,连续随机变量的取值是不可数及无穷尽的。

连续随机变量XX的概率分布一般使用概率密度函数p(x)p(x)来描述,p(x)p(x)可积,满足:
p(x)dx=1(式9) \int_{-\infty}^{\infty}p(x)dx=1\tag{式9}
常见的连续随机变量的概率分布有:

(1)均匀分布

a,ba,b为有限的数,[a,b][a,b]上的均匀分布的概率密度函数定义如下:
p(x)={1baaxb0x<ax>b(式10) p(x)=\begin{cases}\cfrac{1}{b-a}\qquad{a\le{x}\le{b}}\\\quad0\qquad\quad{x<a或者x>b}\end{cases}\tag{式10}

(2)正态分布

正态分布也叫做高斯分布,应用领域很多,概率密度函数如下:
p(x)=12πσexp((xμ)22σ2)(式11) p(x)=\cfrac{1}{\sqrt{2\pi}\sigma}exp(-\cfrac{(x-\mu)^2}{2\sigma^2})\tag{式11}
其中,σ>0\sigma>0,μσ\mu和\sigma均为常数。如若,随机变量XX服从一个参数为$

\mu和\sigma$的概率分布,则简记为:
XN(μ,σ2)(式12) X\thicksim\mathcal{N}(\mu,\sigma^2)\tag{式12}
μ=0,σ=1\mu=0,\sigma=1时,称为标准正态分布

均匀分布和正态分布的图示如下:

机器学习/深度学习 常用概率知识

2.1.3 累积分布函数

对于一个随机变量XX,其累积分布函数是随机变量XX的取值小于等于xx的概率。
cdf(x)=P(Xx)(式13) cdf(x)=P(X\le{x})\tag{式13}
以连续随机变量XX为例,其累积分布函数定义如下:
cdf(x)=xp(t)dt(式14) cdf(x)=\int_{-\infty}^{x}p(t)dt\tag{式14}
其中,p(x)p(x)为概率密度函数,标准正态分布和累积分布的概率密度函数如下:

机器学习/深度学习 常用概率知识

2.2 随机向量

随机向量是指一组随机变量构成的向量。如:X1,X2,,XkX_1,X_2,\cdots,X_kKK个随机变量,那么称X=[X1,X2,,Xk]\boldsymbol{X}=[X_1,X_2,\cdots,X_k]为一个KK维的随机向量。一维随机向量称为随机变量。

随机向量也分为:离散随机向量和连续随机向量。

2.2.1 离散随机向量

离散随机向量的联合概率分布为:
P(X1=x1,X2=x2,,XK=xK)=p(x1,x2,,xK)(式15) P(X_1=x_1,X_2=x_2,\cdots,X_K=x_K)=p(x_1,x_2,\cdots,x_K)\tag{式15}
其中,xkΩkx_k\in{\Omega_k}为变量XkX_k的取值,Ωk\Omega_k为变量XkX_k的样本空间。和离散随机变量类似有:
p(x1,x2,,xK)0,x1Ω1,x2Ω2,,xKΩK(式16) p(x_1,x_2,\cdots,x_K)\ge0,\qquad{\forall{x_1\in{\Omega_1},x_2\in{\Omega_2},\cdots,x_K\in{\Omega_K}}}\tag{式16}

x1Ω1x2Ω2xKΩKp(x1,x2,,xK)=1(式17) \sum_{x_1\in{\Omega_1}}\sum_{x_2\in\Omega_2}\cdots\sum_{x_K\in{\Omega_K}}p(x_1,x_2,\cdots,x_K)=1\tag{式17}

(1)多项分布

多项分布是常见的离散向量概率分布,多项分布是二项分布在随机向量的推广。假设一个袋子中装了很多球,总共有KK个不同的颜色. 我们从袋子中取出NN个球. 每次取出一个球时,就在袋子中放入一个同样颜色的球. 这样保证同一颜色的球在不同试验中被取出的概率是相等的. 令X\boldsymbol{X}为一个KK维随机向量,每个元素Xk(k=1,,K)X_k(k=1,\cdots,K)为取出的NN个球中颜色为kk的球的数量,则XX服从多项分布,其概率分布为:
p(x1,,xKμ)=N!x1!xK!μ1x1μKxK(式18) p(x_1,\cdots,x_K\vert\boldsymbol{\mu})=\cfrac{N!}{x_1!\cdots{x_K}!}\mu_1^{x_1}\cdots\mu_K^{x_K}\tag{式18}
多项分布的概率分布用gamma函数表示如下:
p(x1,,xKμ)=Γ(kxk+1)kΓ(xk+1)k=1Kμkxk(式19) p(x_1,\cdots,x_K\vert\boldsymbol{\mu})=\cfrac{\Gamma(\sum_kx_k+1)}{\prod_k\Gamma(x_k+1)}\prod_{k=1}^{K}\mu_k^{x_k}\tag{式19}

这种形式表示和狄利克雷分布类似,狄利克雷分布可以作为多项分布的共轭先验。

0+xα1exdx=Γ(α)(式20) \int_{0}^{+\infty}x^{\alpha-1}e^{-x}dx=\Gamma(\alpha)\tag{式20}

例如:0+x5exdx=Γ(6)\int_{0}^{+\infty}x^{5}e^{-x}dx=\Gamma(6)

2.2.2 连续随机向量

一个KK维连续随机向量X\boldsymbol{X}的联合概率密度函数满足:
p(x)=p(x1,,xK)0(式21) p(\boldsymbol{x})=p(x_1,\cdots,x_K)\ge0\tag{式21}

++p(x1,,xK)dx1dxK=1(式22) \int_{-\infty}^{+\infty}\cdots\int_{-\infty}^{+\infty}p(x_1,\cdots,x_K)dx_1\cdots{dx_K}=1\tag{式22}

(1)多元正态分布

也叫做多元高斯分布,如若KK维随机向量X=[X1,,XK]T\boldsymbol{X}=[X_1,\cdots,X_K]^T服从KK元正态分布,其密度函数为:
p(x)=1(2π)n/21/2exp(12(xμ)T1(xμ))(式23) p(\boldsymbol{x})=\cfrac{1}{(2\pi)^{n/2}|\sum|^{1/2}}exp(-\cfrac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^T\bold{\sum}^{-1}(\boldsymbol{x}-\boldsymbol{\mu}))\tag{式23}
其中,μRK\boldsymbol{\mu}\in{\mathbb{R}^K}为多元正态分布的均值向量,RK×K\boldsymbol{\sum}\in{\mathbb{R}^{K\times{K}}}为多元正态分布的协方差矩阵,|\boldsymbol{\sum}|为行列式。

(2)各项同性高斯分布

如果一个多元高斯分布的协方差矩阵简化为=σ2I\boldsymbol{\sum}=\sigma^2\boldsymbol{I},即每一个维度随机变量都独立而且方差相同。那么这个多元高斯分布就称为:各项同性高斯分布。

(3)狄利克雷分布

一个KK维随机向量X\boldsymbol{X}的狄利克雷分布为:
p(xα)=Γ(α0)Γ(α1)Γ(αk)k=1Kxkαk1(式24) p(\boldsymbol{x}|\boldsymbol{\alpha})=\cfrac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_k)}\prod_{k=1}^{K}x_k^{\alpha_{k-1}}\tag{式24}
其中的α=[α1,,αk]T\boldsymbol{\alpha}=[\alpha_1,\cdots,\alpha_k]^T为狄利克雷分布的参数。

2.3 边际分布

对于二维离散随机向量(X,Y)(X,Y),假设XX取值空间为Ωx\Omega_x,YY取值空间为Ωy\Omega_y,则其联合概率分布满足:
p(x,y)0,xΩxyΩyp(x,y)=1(式25) p(x,y)\ge0,\qquad{\sum_{x\in\Omega_x}\sum_{y\in{\Omega_y}}p(x,y)=1}\tag{式25}
对于联合概率分布p(x,y)p(x,y),分别对xxyy进行求和。

(1)对于固定的xx:
yΩyp(x,y)=p(x)(式26) \sum_{y\in\Omega_y}p(x,y)=p(x)\tag{式26}
(2)对于固定的yy:
xΩxp(x,y)=p(y)(式27) \sum_{x\in\Omega_x}p(x,y)=p(y)\tag{式27}
由于离散随机向量(X,Y)(X,Y)的联合概率分布,对YY的所有值进行求和得到XX的概率分布,对XX的所有值进行求和得到YY的概率分布.这里p(x)p(y)p(x)和p(y)就称为p(x,y)p(x,y)边际分布

对于二维连续随机向量(X,Y)(X,Y),其边际分布为:
p(x)=+p(x,y)dy(式28) p(x)=\int_{-\infty}^{+\infty}p(x,y)dy\tag{式28}

p(y)=+p(x,y)dx(式29) p(y)=\int_{-\infty}^{+\infty}p(x,y)dx\tag{式29}

对于一个二元正态分布的边际分布任然为正态分布。

2.4 条件概率分布

对于离散随机向量(X,Y)(X,Y),已知X=xX=x的条件下,随机变量Y=yY=y的条件概率为:
p(yx):=P(Y=yX=x)=p(x,y)p(x)(式30) p(y|x):=P(Y=y|X=x)=\cfrac{p(x,y)}{p(x)}\tag{式30}
上式定义了随机变量YY关于随机变量XX的条件概率分布,简称:条件分布

已知xx:
p(yx)=p(x,y)p(x)(式31) p(y|x)=\cfrac{p(x,y)}{p(x)}\tag{式31}
已知yy:
p(xy)=p(x,y)p(y)(式32) p(x|y)=\cfrac{p(x,y)}{p(y)}\tag{式32}

2.5 贝叶斯定理

通过(31)(32)(式31)和(式32),两个条件概率p(xy)p(yx)p(x|y)和p(y|x)之间的关系为:
p(yx)=p(xy)p(y)p(x)(式33) p(y|x)=\cfrac{p(x|y)p(y)}{p(x)}\tag{式33}
这个公式就是贝叶斯定理,或者说是贝叶斯公式。

2.6 独立与条件独立

对于两个离散(或者连续)的随机变量XYX和Y,如果其联合概率(或者联合概率密度函数)满足:
p(x,y)=p(x)p(y)(式34) p(x,y)=p(x)p(y)\tag{式34}
就称XYX和Y相互独立。

对于三个离散(或者连续)随机变量X,YZX,Y和Z,如果条件概率(或者联合概率密度函数)p(x,yz)p(x,y|z)满足:
p(x,yz)=p(xz)p(yz)(式35) p(x,y|z)=p(x|z)p(y|z)\tag{式35}
则称,在给定变量ZZ时,XYX和Y条件独立。