大数定理,中心极限定理和最大似然估计
大数定理
大数定理是概率统计的基石,也是**行业的底层逻辑,当我们在赌场里面一直赌下去的时候,只要赌场在设计的时候你赢的期望小于零,那么从概率上讲你一定会输,这就是赌场能稳赚不赔的原因。当然也有一些数学天才利用概率统计在赌场赚了很多钱,比如电影《决胜21点》中,玩家正常的胜率只有46%,如果按照电影中的算法,算牌的点数每增加一点,玩家获胜的概率增加0.5%,那么点数至少需要达到8点以上才能算是热牌。然而即使点数达到了18点超级热牌,玩家的胜率也只有55%,利用好这个高5%的胜率就可以财富自由,但让这是天才该吃的饭,我还是接着码字。
定义
设随机变量相互独立,并且具有相同的期望和方差,取前个随机变量的平均,则可以推出
大数定理的推导就不在这儿展开了,可以用切比雪夫不等式来推导,有兴趣的同学可以自行尝试。大数定理的意义:当n很大时,随机变量的平均值在概率意义下无限接近期望。出现偏离是可能的,但这种可能性很小,当n无限大时,这种可能性的概率为0。
中心极限定理
设随机变量相互独立,服从同一分布,并且具有相同的期望和方差,则随机变量的分布收敛到标准正态分布。
中心极限定理,说人话:
1.样本的平均值约等于总体的平均值。
2.不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。
在实际问题中,很多随机现象可以看做许多因素的独立影响的综合反应,往往近似服从正态分布。比如城市耗电量:大量用户的耗电量总和。
贝叶斯公式
贝叶斯公式可以由全概率公式推导得到,这也是我经常面试中会问到的问题,显然由很多同学背下来了这个公式,但是并没有理解其中的深意。
由贝叶斯公式可以推导出给定参数的情况下的概率分布叫似然函数,贝叶斯公式其实在我们的生活决定中无处不在,我们在生活中总是根据已经发生的事情来进行调整策略,这就充斥着贝叶斯公式的智慧。
通过对贝叶斯公式的剖析,可以带来下面的思考:
有了这个推导我们就可以请出我们的主人公了:极大似然估计。
极大似然估计
设总体分布为,为该总体采样得到的样本。由于每一个样本是否出现都对应着一定的概率,而且一般来说这些样本的出现都不那么偶然,因此我们希望这个概率分布的参数能够以最高的概率产生这些样本。计算联合密度概率总归不是一件容易的事,如果样本数量非常大,那么计算联合概率密度会让人崩溃。所以这里一般会引入一个假设,独立同分布,如果每一个样本相互独立,彼此出现的概率互不影响,于是,它们的联合密度函数可改写为:
这里,被看做固定但未知的参数;反过来,因为样本已经存在,可以被看成是固定的,是关于的函数,即似然函数。求参数的值,使得似然函数取得最大值,这种方法就是最大似然估计。
在实践中,由于求导数的需要,往往将似然函数取得对数,得到对数似然函数;若对数似然函数可导,可通过求导的方式,解下列方程组得到驻点,然后分析该驻点是极大值点:
举例:二项分布的极大似然估计
投硬币实验中,10次抛硬币的结果是:正正反正正正反反正正,假设p是每次抛硬币的结果为正的概率,则:得到这样实验结果的概率是
找出最优解?
我们把实验推广到一般性,进行N次独立实验,n次为正,N-n次为反,使用对数似然作为目标函数:
这就是二项分布,也叫伯努利分布下最大似然估计求出的结果,结果就是出现的频率就是概率。
总结
1.大数定理是概率统计的重要法宝,很多结论都是由他们推导得出,掌握其中奥妙可以让你透过生活中的现象看到本质,学好概率统计,赌场输的时候也能给自己一个交代,是输给了期望。
2.中心极限定理经常运用到许多观察不到的,微小误差的总和,注意:是多个随机变量的和才可以,也就是不管你之前是什么分布,当对你进行样本采样求和的时候,大概率是服从高斯分布的,这也是为什么我们在假设的时候总是将样本假设为高斯分布。
3.参数估计的方法在很多机器学习算法中都有用到,最大似然估计是十分经典的一种,我们后面将会用来验证线性回归和逻辑回归损失函数选择的合理性。