深度学习 --- 应用数学和机器学习基础(概率论与信息论)
一、概率论
概率论是用于表示不确定性声明的数学框架。它不仅提供了量化不确定性的方法,也提供了用于导出新的不确定性声明的公理。
概率论两种用途:首先,概率法则告诉我们AI系统如何推理,据此我们设计一些算法来计算或者估算由概率论导出的表达式;其次,可以用概率和统计从理论上分析我们提出的AI系统的行为。
概率论使我们能够提出不确定性的声明以及在不确定性存在的情况下进行推理,而信息论使我们能够量化概率分布中的不确定性总量。
概率直接与事件发生的频率相联系,被称为频率派概率;像医生诊断病人患流感的概率为40%,涉及确定性水平,被称为贝叶斯概率
函数f(x)关于某分布p(x)的期望或者期望值是指,当x由p产生,f作用于x时,f(x)的平均值。
方差是衡量当我们对x依据它的概率分布采样时,随机变量x的函数值会呈现多大差异
常用概率分布
Bernoulli分布
Multinoulli分布
某随机实验如果有k个可能结局A1、A2、…、Ak,分别将他们的出现次数记为随机变量X1、X2、…、Xk,它们的概率分布分别是p1,p2,…,pk,那么在n次采样的总结果中,A1出现n1次、A2出现n2次、…、Ak出现nk次的这种事件的出现概率P有下面公式:
高斯分布
正态分布是默认的比较好的选择,其中有两个原因:
第一、中心极限定理说明很多独立随机变量的和近似服从正态分布。这意味着在实际中,很多复杂系统都可以被成功地建模成正态分布的噪声,即使系统可以被分解成一些更结构化的部分
第二、在具有相同方差的所有可能的概率分布中,正态分布在实数上具有最大的不确定性。因此,我们可以认为正态分布是对模型加入的先验知识量最少的分布。
多维正态分布
指数分布和 Laplace分布
Dirac 分布和经验分布
概率分布中的所有质量都集中在一个点上:
常在除了0 以外的所有点的值都为0,但是积分为1
分布的混合
常用函数的有用性质
1、logistic sigmoid 函数:
通常用来产生Bernoulli 分布中的参数ϕ
sigmoid 函数在变量取绝对值非常大的正值或负值时会出现饱和现象,意味着函数会变得很平,并且对输入的微小改变会变得不敏感。
2、softplus 函数:
softplus 函数可以用来产生正态分布的 β 和 σ 参数,因为它的范围是(0,∞)。
有用的公式:
二、信息论
自信息:I(X) = -log(p(x))
熵:H(x) = E(I(x)) = -Σlog(p(x))
KL散度:对于同一个随机变量x 有两个单独的概率分布P(x) 和Q(x),使用 KL 散度来衡量这两个分布的差异:
交叉熵
针对Q 最小化交叉熵等价于最小化KL 散度,因为Q 并不参与被省略的那一项。
结构化概率模型
有向图模型
无向图模型使用带有无向边的图,它们将分解表示成一组函数,这些函数通常不是任何类型的概率分布。
无向模型中的每个团 都伴随着一个因子
。这些因子仅仅是函数,并不是概率分布,每个因子的输出都必须是非负的
随机变量的联合概率与所以这些因子的乘积成比例——这意味着因子的值越大,则可能性越大。
这些图模型表示的分解仅仅是描述概率分布的一种语言。它们不是互相排斥的概率分布族。有向或者无向不是概率分布的特性,它是概率分布的一种特殊描述所具有的特性,而任何概率分布都可以用这两种方式进行描述