一、极大似然原理的理解
通俗的理解,极大似然原理含义就是,世界上之所以会发生某些事件,是因为它发生的概率大。
例如有一个博客的例子是:假设引起X现象和Y现象的原因有A和B两种。假设:
- 在A原因情况下,X现象发生的概率远大于Y现象发生的概率。
- 在B原因情况下,Y现象发生的概率远大于X发生的概率。
- 那么,假设现在观察到X现象,即事件已经是确定的了。此时,原因是A还是B呢?
答:实际上A和B的可能性都存在。但是如果必须要选择一个原因的话,那么可能选择A更为稳妥,这种思考方式就是“极大似然原理”。
二、样本的似然函数
极大似然估计和关于极大似然估计性质的阐述是费希尔的研究成果。费希尔的思想通过下面的例子说明:如果随机选取离散随机变量Y的n个观测值y1,y2,...,yn,如果概率分布p(y)是单个参数θ的函数,那么观测到的Y的这n个独立值的概率是:p(y1,y2,...,yn)=p(y1)p(y1)⋯(yn)
费希尔称样本值y1,y2,...,yn的联合概率为样本的似然函数L。同时,建议应该选择使L达到最大的值作为总体参数θ的估计值。
相关定理:
- 设 y1,y2,...,yn表示随机变量Y的n个观测值的样本,当Y是概率分布为p(y)的离散随机变量时,似然函数L=p(y1)p(y1)⋯(yn).
- 设 y1,y2,...,yn表示随机变量Y的n个观测值的样本,当Y是密度函数为f(y)的连续随机变量时,似然函数L=f(y1)f(y1)⋯(fn).
极大似然估计,就是需要在参数空间θ^=(θ1^,θ2^,⋯,θn^)中选定一个值,使得“已发生”的事件出现的概率最大。
那为什么似然函数要取最大值?是因为我们在试验中抽取的样本已经确定了,是发生了的,要使得似然函数尽可能地趋向于1。
三、求解步骤
【结合一个例子】设y1,y2,...,yn表示随机变量Y的n个观测值的随机样本,具有指数密度函数:
f(y)={βe−y/β,0,若0≤y≤∞其他求β的极大似然估计。
【步骤主要有】
- 构造极大似然函数L;
- 求使L最大的β^:由微分学知道,使L达到最大的β^值是使dL/dθ=0的值。L是一些含有β的乘积,因为求一个和的导数要比求一个积的导数容易,所以会到L取对数,L的对数是L的单调增函数。
下面直接给出过程。