大数定理,中心极限定理和最大似然估计

大数定理

​ 大数定理是概率统计的基石,也是**行业的底层逻辑,当我们在赌场里面一直赌下去的时候,只要赌场在设计的时候你赢的期望小于零,那么从概率上讲你一定会输,这就是赌场能稳赚不赔的原因。当然也有一些数学天才利用概率统计在赌场赚了很多钱,比如电影《决胜21点》中,玩家正常的胜率只有46%,如果按照电影中的算法,算牌的点数每增加一点,玩家获胜的概率增加0.5%,那么点数至少需要达到8点以上才能算是热牌。然而即使点数达到了18点超级热牌,玩家的胜率也只有55%,利用好这个高5%的胜率就可以财富自由,但让这是天才该吃的饭,我还是接着码字。

定义

​ 设随机变量X1,X2,,XnX_1,X_2,\cdots,X_n\cdots相互独立,并且具有相同的期望μ\mu和方差σ2\sigma^2,取前nn个随机变量的平均Yn=1n1nXiY_n=\frac{1}{n}\sum_{1}^{n} X_i,则可以推出

limn+PYnμ<ε\lim_{n\rightarrow+\infty}P{|Y_n-\mu|<\varepsilon}

​ 大数定理的推导就不在这儿展开了,可以用切比雪夫不等式来推导,有兴趣的同学可以自行尝试。大数定理的意义:当n很大时,随机变量X1,X2,,XnX_1,X_2,\cdots,X_n的平均值YnY_n在概率意义下无限接近期望μ\mu。出现偏离是可能的,但这种可能性很小,当n无限大时,这种可能性的概率为0。

中心极限定理

​ 设随机变量X1,X2,,XnX_1,X_2,\cdots,X_n\cdots相互独立,服从同一分布,并且具有相同的期望μ\mu和方差σ2\sigma^2,则随机变量YnY_n的分布收敛到标准正态分布。

Yn=1nXinμnσY_n=\frac{\sum_{1}^{n} X_i-n\mu}{\sqrt{n}\sigma}

中心极限定理,说人话:
1.样本的平均值约等于总体的平均值。
2.不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。

​ 在实际问题中,很多随机现象可以看做许多因素的独立影响的综合反应,往往近似服从正态分布。比如城市耗电量:大量用户的耗电量总和。

贝叶斯公式

​ 贝叶斯公式可以由全概率公式推导得到,这也是我经常面试中会问到的问题,显然由很多同学背下来了这个公式,但是并没有理解其中的深意。
大数定理,中心极限定理和最大似然估计
由贝叶斯公式可以推导出给定参数θ\theta的情况下的概率分布叫似然函数,贝叶斯公式其实在我们的生活决定中无处不在,我们在生活中总是根据已经发生的事情来进行调整策略,这就充斥着贝叶斯公式的智慧。

大数定理,中心极限定理和最大似然估计
通过对贝叶斯公式的剖析,可以带来下面的思考:

大数定理,中心极限定理和最大似然估计
有了这个推导我们就可以请出我们的主人公了:极大似然估计。

极大似然估计

设总体分布为f(x,θ)f(x,\theta),X1,X2,,XnX_1,X_2,\cdots,X_n为该总体采样得到的样本。由于每一个样本是否出现都对应着一定的概率,而且一般来说这些样本的出现都不那么偶然,因此我们希望这个概率分布的参数能够以最高的概率产生这些样本maxL(X1,X2,,Xn;θ1,θ2,,θn)maxL(X_1,X_2,\cdots,X_n;\theta_1,\theta_2,\cdots,\theta_n)。计算联合密度概率总归不是一件容易的事,如果样本数量非常大,那么计算联合概率密度会让人崩溃。所以这里一般会引入一个假设,X1,X2,,XnX_1,X_2,\cdots,X_n独立同分布,如果每一个样本相互独立,彼此出现的概率互不影响,于是,它们的联合密度函数可改写为:

L(X1,X2,,Xn;θ1,θ2,,θn)=n=199f(xi;θ1,θ2,,θn)L(X_1,X_2,\cdots,X_n;\theta_1,\theta_2,\cdots,\theta_n)=\prod_{n=1}^{99}{f(x_i;\theta_1,\theta_2,\cdots,\theta_n)}

​ 这里,θ\theta被看做固定但未知的参数;反过来,因为样本已经存在,可以被看成X1,X2,,XnX_1,X_2,\cdots,X_n是固定的,L(X,θ)L(X,\theta)是关于θ\theta的函数,即似然函数。求参数θ\theta的值,使得似然函数取得最大值,这种方法就是最大似然估计。

​ 在实践中,由于求导数的需要,往往将似然函数取得对数,得到对数似然函数;若对数似然函数可导,可通过求导的方式,解下列方程组得到驻点,然后分析该驻点是极大值点:

logL(θ1,θ2,,θn)=1nf(xi;θ1,θ2,,θn)logL(\theta_1,\theta_2,\cdots,\theta_n)=\sum_{1}^{n}{f(x_i;\theta_1,\theta_2,\cdots,\theta_n)}

L(θ)θi=0,i=1,2,,n\frac{\partial L(\theta)}{\partial \theta_i}=0,\quad\quad\quad i=1,2,\cdots,n

举例:二项分布的极大似然估计

​ 投硬币实验中,10次抛硬币的结果是:正正反正正正反反正正,假设p是每次抛硬币的结果为正的概率,则:得到这样实验结果的概率是

P=pp(1p)ppp(1p)(1p)pp=p7(1p)3P=pp(1-p)ppp(1-p)(1-p)pp=p^7(1-p)^3

找出最优解?

​ 我们把实验推广到一般性,进行N次独立实验,n次为正,N-n次为反,使用对数似然作为目标函数:

f(np)=log(pn(1p)Nn)>g(p)f(n|p)=log(p^n(1-p)^N-n)--\nabla-->g(p)

g(p)p=npNn1p,>0>p=nN\frac{\partial g(p)}{\partial p}=\frac{n}{p}-\frac{N-n}{1-p},--\nabla-->0 -->p=\frac{n}{N}

​ 这就是二项分布,也叫伯努利分布下最大似然估计求出的结果,结果就是出现的频率就是概率。

总结

1.大数定理是概率统计的重要法宝,很多结论都是由他们推导得出,掌握其中奥妙可以让你透过生活中的现象看到本质,学好概率统计,赌场输的时候也能给自己一个交代,是输给了期望。

2.中心极限定理经常运用到许多观察不到的,微小误差的总和,注意:是多个随机变量的和才可以,也就是不管你之前是什么分布,当对你进行样本采样求和的时候,大概率是服从高斯分布的,这也是为什么我们在假设的时候总是将样本假设为高斯分布。

3.参数估计的方法在很多机器学习算法中都有用到,最大似然估计是十分经典的一种,我们后面将会用来验证线性回归和逻辑回归损失函数选择的合理性。