【概率论】极大似然估计和最大后验概率
目录
3.3 极大似然估计法(Maximum Likelihood Estimation,MLE)
1.概率模型和非概率模型
要介绍极大似然估计和最大后验估计,就要先从概率模型和非概率模型说起。极大似然估计和最大后验估计都是概率模型的求解方法。
1.1 非概率模型
非概率模型指的是直接学习输入空间到输出空间的映射h,学习的过程中基本不涉及概率密度的估计,概率密度的积分等操作,问题的关键在于最优化问题的求解。通常,为了学习假设h(x),我们会先根据一些先验知识(prior knowledge) 来选择一个特定的假设空间H(函数空间),例如一个由所有线性函数构成的空间,然后在这个空间中找出泛化误差最小的假设出来,
其中l(h(x),y)是我们选取的损失函数,选择不同的损失函数,得到假设的泛化误差就会不一样。由于我们并不知道P(x,y),所以即使我们选好了损失函数,也无法计算出假设的泛化误差,更别提找到那个给出最小泛化误差的假设。于是,我们转而去找那个使得经验误差最小的假设,
这种学习的策略叫经验误差最小化(ERM),理论依据是大数定律:当训练样例无穷多的时候,假设的经验误差会依概率收敛到假设的泛化误差。要想成功地学习一个问题,必须在学习的过程中注入先验知识[3]。前面,我们根据先验知识来选择假设空间,其实,在选定了假设空间后,先验知识还可以继续发挥作用,这一点体现在为我们的优化问题(IV)加上正则化项上,例如常用的L1正则化,L2正则化等。
正则化项一般是对模型的复杂度进行惩罚,例如我们的先验知识告诉我们模型应当是稀疏的,这时我们会选择L1范数。当然,加正则化项的另一种解释是为了防止对有限样例的过拟合,但这种解释本质上还是根据先验知识认为模型本身不会太复杂。在经验误差的基础上加上正则化项,同时最小化这两者,这种学习的策略叫做结构风险最小化(SRM)。最后,学习算法A根据训练数据集D,从假设空间中挑出一个假设g,作为我们将来做预测的时候可以用。具体来说,学习算法A其实是一个映射,对于每一个给定的数据集D,对于选定的学习策略(ERM or SRM),都有确定的假设与D对应
感知机、支持向量机、神经网络、k近邻都属于非概率模型。线性支持向量机可以显式地写出损失函数——hinge损失。神经网络也可以显式地写出损失函数——平方损失。
时下流行的迁移学习,其中有一种迁移方式是基于样本的迁移。这种方式最后要解决的问题就是求解一个加权的经验误差最小化问题,而权重就是目标域与源域的边际密度之比。所以,线性支持向量机在迁移学习的环境下可以进行直接的推广。
1.1 概率模型
概率模型是先假定模型具有某种确定的概率分布形式,在基于训练样本对概率分布的参数进行估计。例如逻辑斯特回归就假设模型服从伯努利分布。
2 频率学派和贝叶斯学派
概率模型的学习过程, 就是给定模型的条件下的参数估计过程, 长久以来, 统计学界的两个学派分别提出了各自的解决方案。
2.1 频率学派
频率学派认为, 参数(概率)虽然未知, 但是却是客观存在的固定值。如何理解这句话呢?就是说事件概率是确定的,所以当重复的进行实验时,结果出现的频率就会趋于一个稳定的值p,这个p就是事件的概率。
频率学派的代表算法就是极大似然估计MLE,这里常举的例子是硬币的例子,如果抛10次硬币,10次正面向上,则根据极大似然方法,P(抛硬币正面向上)就为1.0(显然,这是有一定问题的)。
2.2 贝叶斯学派
贝叶斯学派,参数(概率)也是随机变量, 它自身也有分布, 可以假定参数服从一个先验分布, 然后基于样本来计算后验分布, 最后通过后验概率的最大化来确定参数自身的分布。
贝叶斯派的代表算法就是最大后验概率估计MAP,这种方法在先验假设比较靠谱的情况下效果显著,随着数据量的增加,先验假设对于模型参数的主导作用会逐渐削弱,相反真实的数据样例会大大占据有利地位。极端情况下,比如把先验假设去掉,或者假设先验满足均匀分布的话,那她和极大似然估计就如出一辙了。
可能有些人就会迷糊,逻辑回归就是假设服从伯努利分布,为什么采用的是概率学派的极大似然估计来求解呢?
逻辑回归是分类的结果Y服从伯努利分布,即认为类别1出现的概率为P,相应地,类别0出现的概率就为1-P,即认为这个P的值是客观存在的,因此可以根据实验结果利用极大似然估计来求解。而贝叶斯学派认为的是概率P本身也是随机变量,服从一定的分布,而非前面的Y。
3. 极大似然估计
3.1 什么是极大似然估计
在日常生活中,我们很容易无意中就使用到极大似然估计的思想,只是我们并不知道极大似然估计在数学中的如何确定以及推导的。下面我们使用两个例子让大家大概了解一下什么是极大似然估计:
(1)猎人师傅和徒弟一同去打猎,遇到一只兔子,师傅和徒弟同时放枪,兔子被击中一枪,那么是师傅打中的,还是徒弟打中的?
(2)一个袋子中总共有黑白两种颜色100个球,其中一种颜色90个,随机取出一个球,发现是黑球。那么是黑色球90个?还是白色球90个?
对于第(1)个问题,由于师傅的技术一般比徒弟高,因此我们会猜测兔子是师傅打中的。对于第(2)个问题,对于颜色有90个的球,我们抽中它的概率更大,因此当抽中为黑色球时,我们便会认为90个的是黑色球。
对于以上两个例子可以看出,我们在进行猜测时,往往认为:概率最大的事件,最可能发生,因此在一次试验中就出现的事件应当具有较大的概率。
3.2 极大似然原理及数学表示
极大似然原理是指:若一次试验有 n个可能结果 现在我们做一次试验,试验的结果为 Ai ,那么我们就可以认为事件 Ai在这个 n个可能结果中出现的概率最大。
极大似然估计是指:在一次抽样中,样本出现的概率是关于参数 θ 的函数,若在一些试验中,得到观测值 ,则我们可以选取
作为 θ的估计值,使得当
时,样本出现的概率最大。而极大似然估计就是要求解出参数 θ的估计值。可采用极大似然估计法。
3.3 极大似然估计法(Maximum Likelihood Estimation,MLE)
3.4 极大似然估计法求估计值的步骤
3.5 例题
现在有一个黑箱子里面有标有1或2的球共100个,现在从中有放回的抽取10个球,结果为{1,2,2,2,1,2,1,1,2,2},估计标有1的球在黑箱子里面有多少个。
问题的本质在于估计标号为1的球的个数,设其个数为theta个,那么选中标号1的球的概率 p(x=1) = theta/100,而实验结果我们可以得到:
之后对P取对数:
为了使对数值最大,求导求驻点:
算出 p = 0.4,即 theta/100 = 0.4,那么 theta=40
4. 最大后验估计
4.1 什么是最大后验估计
最大后验概率依然是根据已知样本,来通过调整模型参数使得模型能够产生该数据样本的概率最大,只不过对于模型参数有了一个先验假设,即模型参数可能满足某种分布,不再一味地依赖数据样例(万一数据量少或者数据不靠谱呢)。
就如我们2.1所举的例子,抛一枚硬币10次,有10次正面朝上,0次反面朝上。问正面朝上的概率p。在频率学派来看,利用极大似然估计可以得到 p= 10 / 10 = 1.0。显然当缺乏数据时MLE可能会产生严重的偏差。
如果我们利用极大后验概率估计来看这件事,先验认为大概率下这个硬币是均匀的 (例如最大值取在0.5处的Beta分布),那么P(p|X),是一个分布,最大值会介于0.5~1之间,而不是武断的给出p= 1。
4.2 最大后验估计原理及表达式
要讲解最大后验估计,必须要知道后验概率、全概率公式以及贝叶斯公式,这里不再详述。
MAP的基础是贝叶斯公式:
其中,就是之前讲的似然函数,
是先验概率,是指在没有任何实验数据的时候对参数 θ的经验判断,对于一个硬币,大概率认为他是正常的,正面的概率为
的可能性最大。
MAP优化的就是一个后验概率,即给定了观测值以后使后验概率最大:
从上面公式可以看出,是似然函数,而
是先验概率。对其取对数:
通过MAP最终的式子不难看出,MAP就是多个作为因子的先验概率。这个
可以是任何的概率分布,比如高斯分布。
5. 参考
监督学习的分类:判别模型与生成模型,概率模型与非概率模型、参数模型与非参数模型