1.样本空间
定义:样本空间是一个随机试验所有可能结果的集合。比如:投掷一枚硬币,样本空间为:{正面,反面}。随机试验中的每个可能结果叫做样本点。
有些试验有两个或者多个的样本空间,比如:随机抽取一张扑克,样本空间可以是数字,可以是花色。这时候,如果要完整描述一张牌,就要使用到笛卡儿积。
χ×y={<x,y>∣x∈χ∧y∈y}(式1)
2.事件和概率
随机事件或者(简称为事件):是指一个被赋予概率的事物集合,也就是样本空间中的一个子集。概率是指一个随机事件发生的可能性大小,介于0和1之间。
2.1 随机变量
在随机试验中,将试验的结果用X表示,这个X会随着试验结果的不同而变化,是样本点的一个函数。把这个数叫做随机变量。比如掷骰子:随机变量X的取值为{1,2,3,4,5,6}。
一个随机事件也可以定义多个随机变量。比如:在掷2个骰子的随机事件中,可以定义随机变量X为获得点数之和,或者点数之差。分别记为:X和Y
X(i,j):=i+j,x=2,3,⋯,12(式2)
Y(i,j):=i−j,y=0,1,2,3,4,5(式3)
其中,i,j分别表示两个骰子的点数。
2.1.1 离散随机变量
离散随机变量:如果随机变量X所有可能取到的值是有限的可以列举的,有N个有限值:
{x1,⋯,xN}(式4)
这样一来,我们就把X叫做离散随机变量。
记每一种可能的取值都有xn的概率,P(X=xn)=p(xn)∀n∈{1,⋯,N}
这里面的p(x1),⋯,p(xN)称为离散随机变量的概率分布,或者分布,满足:
n=1∑Np(xn)=1p(xn)≥0,∀n∈{1,⋯,N}(式5)
常见的离散随机变量的概率分布有:
(1)伯努利分布:
在一次试验中,事件A发生的概率为μ,则不发生的概率为:1−μ。使用X表示事件A出现的次数,则X取值为0和1,分布表示如下:
p(x)=μx(1−μ)(1−x)(式6)
如上分布叫做伯努利分布,也叫做两点分布或者0-1分布。
(2)二项分布:
在n次伯努利试验中,使用X表示事件A出现的次数,则X取值为:{0,⋯,N},分布表示如下:
P(X=k)=CNkμk(1−μ)N−kk=0,⋯,N(式7)
其中,CNk表示二项式系数,表示从N各元素中取出k个元素,且不考虑其顺序的组合的总数。
2.1.2 连续随机变量
和离散型随机变量相比,不同之处在于:连续随机变量X的取值是不可列举的,由全部实数或者由一部分区间组成,比如:
X={x∣a≤x≤b},−∞<a<b<∞(式8)
这样子就把X称之为连续随机变量 ,连续随机变量的取值是不可数及无穷尽的。
连续随机变量X的概率分布一般使用概率密度函数p(x)来描述,p(x)可积,满足:
∫−∞∞p(x)dx=1(式9)
常见的连续随机变量的概率分布有:
(1)均匀分布:
若a,b为有限的数,[a,b]上的均匀分布的概率密度函数定义如下:
p(x)=⎩⎨⎧b−a1a≤x≤b0x<a或者x>b(式10)
(2)正态分布:
正态分布也叫做高斯分布,应用领域很多,概率密度函数如下:
p(x)=2πσ1exp(−2σ2(x−μ)2)(式11)
其中,σ>0,μ和σ均为常数。如若,随机变量X服从一个参数为$
\mu和\sigma$的概率分布,则简记为:
X∼N(μ,σ2)(式12)
当μ=0,σ=1时,称为标准正态分布。
均匀分布和正态分布的图示如下:

2.1.3 累积分布函数
对于一个随机变量X,其累积分布函数是随机变量X的取值小于等于x的概率。
cdf(x)=P(X≤x)(式13)
以连续随机变量X为例,其累积分布函数定义如下:
cdf(x)=∫−∞xp(t)dt(式14)
其中,p(x)为概率密度函数,标准正态分布和累积分布的概率密度函数如下:

2.2 随机向量
随机向量是指一组随机变量构成的向量。如:X1,X2,⋯,Xk为K个随机变量,那么称X=[X1,X2,⋯,Xk]为一个K维的随机向量。一维随机向量称为随机变量。
随机向量也分为:离散随机向量和连续随机向量。
2.2.1 离散随机向量
离散随机向量的联合概率分布为:
P(X1=x1,X2=x2,⋯,XK=xK)=p(x1,x2,⋯,xK)(式15)
其中,xk∈Ωk为变量Xk的取值,Ωk为变量Xk的样本空间。和离散随机变量类似有:
p(x1,x2,⋯,xK)≥0,∀x1∈Ω1,x2∈Ω2,⋯,xK∈ΩK(式16)
x1∈Ω1∑x2∈Ω2∑⋯xK∈ΩK∑p(x1,x2,⋯,xK)=1(式17)
(1)多项分布:
多项分布是常见的离散向量概率分布,多项分布是二项分布在随机向量的推广。假设一个袋子中装了很多球,总共有K个不同的颜色. 我们从袋子中取出N个球. 每次取出一个球时,就在袋子中放入一个同样颜色的球. 这样保证同一颜色的球在不同试验中被取出的概率是相等的. 令X为一个K维随机向量,每个元素Xk(k=1,⋯,K)为取出的N个球中颜色为k的球的数量,则X服从多项分布,其概率分布为:
p(x1,⋯,xK∣μ)=x1!⋯xK!N!μ1x1⋯μKxK(式18)
多项分布的概率分布用gamma函数表示如下:
p(x1,⋯,xK∣μ)=∏kΓ(xk+1)Γ(∑kxk+1)k=1∏Kμkxk(式19)
这种形式表示和狄利克雷分布类似,狄利克雷分布可以作为多项分布的共轭先验。
∫0+∞xα−1e−xdx=Γ(α)(式20)
例如:∫0+∞x5e−xdx=Γ(6)。
2.2.2 连续随机向量
一个K维连续随机向量X的联合概率密度函数满足:
p(x)=p(x1,⋯,xK)≥0(式21)
∫−∞+∞⋯∫−∞+∞p(x1,⋯,xK)dx1⋯dxK=1(式22)
(1)多元正态分布:
也叫做多元高斯分布,如若K维随机向量X=[X1,⋯,XK]T服从K元正态分布,其密度函数为:
p(x)=(2π)n/2∣∑∣1/21exp(−21(x−μ)T∑−1(x−μ))(式23)
其中,μ∈RK为多元正态分布的均值向量,∑∈RK×K为多元正态分布的协方差矩阵,∣∑∣为行列式。
(2)各项同性高斯分布:
如果一个多元高斯分布的协方差矩阵简化为∑=σ2I,即每一个维度随机变量都独立而且方差相同。那么这个多元高斯分布就称为:各项同性高斯分布。
(3)狄利克雷分布:
一个K维随机向量X的狄利克雷分布为:
p(x∣α)=Γ(α1)⋯Γ(αk)Γ(α0)k=1∏Kxkαk−1(式24)
其中的α=[α1,⋯,αk]T为狄利克雷分布的参数。
2.3 边际分布
对于二维离散随机向量(X,Y),假设X取值空间为Ωx,Y取值空间为Ωy,则其联合概率分布满足:
p(x,y)≥0,x∈Ωx∑y∈Ωy∑p(x,y)=1(式25)
对于联合概率分布p(x,y),分别对x和y进行求和。
(1)对于固定的x:
y∈Ωy∑p(x,y)=p(x)(式26)
(2)对于固定的y:
x∈Ωx∑p(x,y)=p(y)(式27)
由于离散随机向量(X,Y)的联合概率分布,对Y的所有值进行求和得到X的概率分布,对X的所有值进行求和得到Y的概率分布.这里p(x)和p(y)就称为p(x,y)的边际分布。
对于二维连续随机向量(X,Y),其边际分布为:
p(x)=∫−∞+∞p(x,y)dy(式28)
p(y)=∫−∞+∞p(x,y)dx(式29)
对于一个二元正态分布的边际分布任然为正态分布。
2.4 条件概率分布
对于离散随机向量(X,Y),已知X=x的条件下,随机变量Y=y的条件概率为:
p(y∣x):=P(Y=y∣X=x)=p(x)p(x,y)(式30)
上式定义了随机变量Y关于随机变量X的条件概率分布,简称:条件分布。
已知x:
p(y∣x)=p(x)p(x,y)(式31)
已知y:
p(x∣y)=p(y)p(x,y)(式32)
2.5 贝叶斯定理
通过(式31)和(式32),两个条件概率p(x∣y)和p(y∣x)之间的关系为:
p(y∣x)=p(x)p(x∣y)p(y)(式33)
这个公式就是贝叶斯定理,或者说是贝叶斯公式。
2.6 独立与条件独立
对于两个离散(或者连续)的随机变量X和Y,如果其联合概率(或者联合概率密度函数)满足:
p(x,y)=p(x)p(y)(式34)
就称X和Y相互独立。
对于三个离散(或者连续)随机变量X,Y和Z,如果条件概率(或者联合概率密度函数)p(x,y∣z)满足:
p(x,y∣z)=p(x∣z)p(y∣z)(式35)
则称,在给定变量Z时,X和Y条件独立。