对最小二乘法的概率解释
《Andrew Ng 机器学习笔记》这一系列文章文章是我再观看Andrew Ng的Stanford公开课之后自己整理的一些笔记,除了整理出课件中的主要知识点,另外还有一些自己对课件内容的理解。同时也参考了很多优秀博文,希望大家共同讨论,共同进步。
网易公开课地址:http://open.163.com/special/opencourse/machinelearning.html
在这篇博文中,我们来分析为何之前要选择平方函数作为目标函数会取得更好的效果。
本篇内容需要了解到的线性代数知识点:
(1)高斯分布
(2)正态分布
(3)中心极限定理
(4)IID(独立同分布)
(5)似然函数
(6)极大似然估计
对最小二乘法的概率解释
首先我们先做几个假设,这些假设并不能说是绝对正确,但在这里足够使用。
假设一:对于每一个样例(x(i),y(i)),特征值x和目标值y的关系可以表示成:(其中,ε(i) 表示线性模型与目标值的误差 因素。)
假设二:ε(i) 服从正态分布:
假设二说明误差因素是一个正态分布,这是根据中心极限定理:许多独立随机变量的和趋向于正态分布。因为影响误差的因素有很多,而这些因素都是独立且随机分布的,所以,我们可以得到假设二。
由此可得:
这也表示,当给定参数θ和x时,目标值y也服从正态分布,所以有:
假设三:对于误差ε(i) ,是IID(独立同分布,Independent Identical Distribution)的随机变量。
这样,我们就可以得到似然函数:

概率与似然性的区别:
概率用于在已知一些参数的情况下,预测接下来的观测所得到的结果,而似然性 则是用于在已知某些观测所得到的结果时,对有关事物的性质的参数进行估计。找到使得数据集出现的概率最大时的参数,就称为极大似然估计。
上式取log对数后,可得下式:
所以,最大化
等同于最小化

所以,之前讲的一般的最小二乘法实际上是在假设误差项满足高斯分布且独立同分布的情况下,使似然性最大化。
转载自:https://blog.****.net/v1_vivian/article/details/52006127