极大似然估计、最小二乘法及朴素贝叶斯
1. 问题定义
样本集D中的样本都是独立同分布,且样本数为m
D={(X1,Y1),(X2,Y2),... ,(Xm,Ym)}
其中,Xk={x1,x2,... ,xn}是第k个样本的n个特征项,Xk∈Rn。Yk是第k个样本的类别,Yk∈R1。Yk∈Y={y1,y2,... ,yv},其中Y是类别的空间,Y∈Rv。
要解决的问题为,在已知样本和其所属的类别的条件下,求得某个样本是某一类别的概率。
2. 贝叶斯决策
首先看经典的贝叶斯公式:
P(y∣x)=P(x)P(x∣y)P(y)(1)
按照上述问题定义,可将贝叶斯公式写为:
P(y∣X)=P(X)P(X∣y)P(y)(2)
由于每个类别都是独立的,则:
P(y∣X)=∑i=1vP(X∣yi)P(yi)P(X∣y)P(y)(3)
在这里,我们称:
P(y)为先验概率
P(X∣y)为条件概率
P(y∣X)为后验概率
P(X)为先验概率
3. 朴素贝叶斯
根据上式(3)我们能够看到,在某一个样本所具有的的特征X条件下,该样本属于某一种类别的概率P(y∣X)的相对大小与分母无关(在各个条件概率计算过程中,分母的值都相同,而且等于各个条件概率中分子值的和,因此,在计算得到各个分子后求和,也就得到了分母的值)。
因此,在构建朴素贝叶斯时,我们可以先忽略分母P(X),着重求解分子。
对于分子中的先验概率P(y),我们可以通过样本数据集D来统计得到。
而对于分子中的条件概率P(X∣y),我们也可以根据样本数据集中出现的样本来估计条件概率。但是,在实际中,X往往包含多个特征,在样本中往往不能包含属性值的所有可能组合(假设每个属性都是二值属性,那么就有2n中属性之间的组合),那么在样本集中,很多的P(X∣y)都会为0。然而,这些样本仅仅可能是我们的数据集中并没有观察到而并非真的不存在。
这时,朴素贝叶斯的条件独立性假设就发挥作用了。
通过条件独立性假设,我们可以将公式(3)改写为:
P(y∣X)=∑i=1vP(X∣yi)P(yi)P(X∣y)P(y)=∑i=1vP(X∣yi)P(yi)P(x1,x2,... ,xn∣y)P(y)=∑i=1vP(X∣yi)P(yi)∏j=1nP(xj∣y)P(y)(4)
上式将每个样本的属性集合X中的每一个属性看做是相互独立的,所以可以将P(x1,x2,... ,xn∣y)拆分成∏j=1nP(xj∣y)P(y),在该假设下,就基本解决了样本集中属性组合不能覆盖所有可能性的问题。
根据公式(4),我们就可以求得在已知的属性下,该样本属于各个类别的概率值,那判断的结果为:
h(X)=argminy∈Yj=1∏nP(xj∣y)P(y)(5)
离散属性与连续属性的处理
在估计条件概率的时候,若xi为离散属性,那么我们计算每个属性占该类样本的比例记好了:
P(xi∣y)=∣Dy∣∣Dy,xi∣(6)
如果xi是连续值,就需要用概率密度函数来计算其概率,即假定对于某一类别中样本的属性xi满足如下正态分布:p(xi∣y)∼N(μy,i,σy,i2),其中μy,i,σy,i2分别表示第y类样本在第i个属性上的均值和方差。则:
P(xi∣y)=2πσy,i1exp(−2σy,i2(xi−μy,i)2)(7)
拉普拉斯修正(Laplacian correction)
朴素贝叶斯分类器在实际使用中还需要注意的一个问题是:若某个离散类型的属性值在训练集中没有与某个类同时出现过,那么当我们使用P(xi∣y)=∣Dy∣∣Dy,xi∣对齐进行估计是,P(xi∣y)会等于0。但如果这时有个测试集样本,在该属性xi的取值正好是训练集中所没有出现的,但其他的属性都非常符合该类的特征,但是由于计算公式是各个条件概率相乘计算得到,则不管其他属性取值如何,计算得到该测试集样本属于该类的概率P(xi∣y)始终为0,这显然是不合常理的。
这一问题本质上是我们的训练集不够完整,没有足够的样本。为了避免该问题,我们通常在估计概率值时,对其进行“平滑”(smoothing)操作,通常使用“拉普拉斯修正”(Laplacian correction)。
具体的方法为:
P^(y)=∣D∣+v∣Dy∣+1(8)
其中,v表示可能的类别数。
P^(xi∣y)=∣D∣+wi∣Dy,xi∣+1(9)
其中,wi表示第i个属性的可能取值数(针对离散值来说, 连续值由于使用服从正态分布的概率密度函数来计算条件概率,因此不会出现概率为零的情况)
通过公式(8)和(9),在分子中加1,就避免了计算针对每个属性时的条件概率为零的情况出现。
4. 极大似然估计
通过上面的朴素贝叶斯算法我们能够看到,很多情况下都需要我们对类别或特征进行估计得到其概率密度函数。
简单来说,极大似然估计就是在已知样本的情况下,假定该样本服从某项分布,但是该分布的参数未知。目标就是当参数取什么值时使得出现数据集中样本的概率最大,这时我们就估计假定样本服从的分布的参数为使得概率最大的参数。

5. 最小二乘法
最小二乘法是为了拟合样本的实际值与模型的输出值。当假设极大似然估计中似然概率函数为正态分布时,最小二乘法和极大似然估计得到统一。

梯度下降(不做赘述)
代数求解
J(θ)=21i=1∑n(yi−h(xi))2=21i=1∑n(yi−θ1xi−θ0)2
分别求关于参数θ1θ0的偏导:
∂θ1∂J(θ)=i=1∑n(yi−θ1xi−θ0)⋅−xi=−i=1∑nxiyi+θ1i=1∑nxi2+θ0i=1∑nxi
∂θ0∂J(θ)=i=1∑n(yi−θ1xi−θ0)⋅−1=−i=1∑nyi+θ1i=1∑nxi+θ0⋅n
根据上述的两个多项式在等于0的时候,J(θ)取得最小值,可以分别求解θ1,θ0。
假设A=∑i=1nxiyi,B=∑i=1nxi2,C=∑i=1nxi,D=∑i=1nyi
则上述两个偏导方程可以表示为
−A+θ1⋅B+θ0⋅C=0
−D+θ1⋅C+θ0⋅n=0
求解得到:
θ1=B−C2An−CD=∑i=1nxi2−(∑i=1nxi)2n⋅∑i=1nxiyi−∑i=1nxi∑i=1nyi
θ0=C2−nBAC−BD=(∑i=1nxi)2−n⋅∑i=1nxi2∑i=1nxiyi∑i=1nxi−∑i=1nxi2∑i=1nyi
对于多元(n元)线性回归,我们可以得到n+1个方程的方程组,求解该方程组就可以得到使得J(θ)最小的θ了。
多元线性回归 最小二乘法 矩阵求解及推导



补充:
(X−Y)T=XT−YT
(XY)T=YTXT
∂θ∂tr(θTXTXθ)=XTXθ+XTXθ

朴素贝叶斯分类器(Naive Bayesian Classifier)
最大似然估计和最小二乘估计的区别与联系
矩阵求导解最小二乘法的推演过程介绍