概率论基础总结
机器学习和深度学习用到的数学知识主要来源于:
1.高等数学/微积分
2.线性代数与矩阵论
3.概率论与信息论
4.最优化方法
5.图论/离散数学
概率论知识总结如下:
古典概率中的几个重要公式
P(A ̅ )=1-P(A)
P(A-B)=P(A)-P(AB)
P(A+B)=P(A)+P(B)-P(AB)
P(A+B+C)=P(A)+P(B)+P©-P(AB)-P(AC)-P(BC)+P(ABC)
全概率和贝叶斯公式
全概率公式:设试验E的样本空间为S,A为E的事件,B1,B2…Bn为S的一个划分,且P(Bi)>0(i=1,2,…n),则
P(A)=P(B1)P(A│B1)+P(B2)P(A│B2)+⋯+P(Bn)P(A│Bn)
贝叶斯(Bayes)公式:设试验E的样本空间为S,A为E的事件,B1,B2…Bn为S的一个划分,且P(A)>0,P(Bi)>0(i=1,2,…n),则
随机变量的分布函数
设X是一个随机变量,x是任意实数,函数F(x)=P{X≤x},-∞<x<+∞,称为X的分布函数
离散型随机变量
设离散型随机变量X所有可能得取值为xk(k=1,2,…),X取各个可能值得概率,即事件{X=xk}的概率为:P{X=xk}=pk,k=1,2…,称为离散型随机变量X的分布律。
连续性随机变量
一维:如果对于随机变量X的分布函数F(x),存在非负可积函数f(x),使对于任意实数x有
则称X为连续型随机变量,f(x)为X的概率密度函数,简称概率密度。
二维:对于二维随机变量(X,Y)的分布函数F(x,y),如果存在非负可积函数f(x,y)使对于任意x,y有
则称(X,Y)是连续型的二维随机变量,函数f(x,y)称为二维随机变量(X,Y)的概率密度,或联合概率密度。
(X,Y)关于X的边缘概率密度:
(X,Y)关于Y的边缘概率密度:
期望/均值
离散型:
设离散型随机变量X的分布律为P{X=xk}=pk ,则随机变量X的数学期望为
连续型:
设连续型随机变量X的概率密度为f(x),则随机变量X的数学期望为
期望的几个重要性质:
X,Y是随机变量,C是常数
E(C)=C,C是常数
E(CX)=C E(X)
E(X+Y)=E(X)+E(Y) ;可以推广到任意有限个变量的情况
X,Y是相互独立的两个随机变量,E(XY)=E(X)E(Y)
方差
D(X)=Var(X)=E{ [ X-E(X) ]2 }
D(X)=E(X2)-[E(X)]2
用来度量随机变量X与其均值E(X)的偏离程度
标准差或均方差为方差的算术平方根,如下式:
方差的几个重要性质:
X是随机变量,C是常数
D(C)=0
D(CX)=C2D(X)
D(X+C)=D(X)
D(X+Y)=D(X)+D(Y)+2E{ (X-E(X)) (Y-E(Y)) }
若X,Y相互独立,则有D(X+Y)=D(X)+D(Y)