本篇博客将介绍监督学习中另一主要应用——分类算法,不同于回归算法回归算法,分类算法的输出是离散的分类变量,在实际有着广泛的应用。
目录
分类问题
分类问题中的线性回归
我们考虑一个包含两类的数据集,一类标记为-1,一类标记为1,如果对于左图中的数据利用回归模型可以很好的区分,但是数据分布不是聚集分布,如右图,有部分class1的数据远离拟合的直线,根据线性回归此时拟合的直线变为紫色直线,出现误判的情况。

分类问题算法
现在按照机器学习简介中机器学习建模步骤,
- Model:输入x,f(x)定义为:当g(x)>0时,输出class=1,否则输出calss=2
- Loss function:L(f)=∑nδ(f(xn)≠ŷ n)
- 寻找最优函数
贝叶斯
贝叶斯公式
有两个盒子,都有蓝色球和绿色球,现在随机从两个盒子中抽出一个蓝色的球,根据贝叶斯公式可以计算。

现在我们有79只水系宝可梦、61只一般系宝可梦的Defense和SP Defense属性值,假设服从联合高斯分布fu1,Σ1=1(2π)D/21|Σ1|1/2exp{−12(x−u1)TΣ−11(x−u1)},fu2,Σ2=1(2π)D/21|Σ2|1/2exp{−12(x−u2)TΣ−12(x−u2)}。

极大似然估计参数
u∗1,Σ∗1=argmaxu1,Σ1L(u1,Σ1)=argmaxu1,Σ1fu1,Σ1(x1)fu1,Σ1(x2)…fu1,Σ1(x79)
u∗2,Σ∗2=argmaxu2,Σ2L(u2,Σ2)=argmaxu2,Σ2fu2,Σ2(x1)fu2,Σ2(x2)…fu2,Σ2(x79)
解得,u∗1=179∑79n=1xn,Σ∗1=179∑79n=1(xn−u∗1)(xn−u∗1)T
u∗2=161∑140n=80xn,Σ∗2=161∑140n=80(xn−u∗2)(xn−u∗2)T

考虑引入更多的特征进一步建模,并且假设两类的高斯分布Σ相同以避免参数过多带来过拟合问题,同样使用极大似然估计估计参数:
u1,u2,Σ=argmaxu1,u2,ΣL(u1,u2,Σ)=argmaxu1,u2,Σ∏n=179fu1,Σ(xn)∏n=80140fu2,Σ(xn)
求解得到:u∗1=179∑79n=1xn,u∗2=161∑140n=80xn,Σ∗=7979+61Σ1+6179+61Σ2,结合机器学习的三步骤,此时得到的分类函数是线性的。

朴素贝叶斯
现在假设每一个类中的每一个变量的分布是独立的,P(x1,x2…xn|C1)=∏ni=1P(xi|C1),此时只要估计每一个一维高斯分布的参数。
P(C1|x)=P(x|C1)P(C1)P(x|C2)P(C2)+P(x|C2)P(C2)=11+P(x|C2)P(C2)P(x|C1)P(C1)=11+exp(−z),其中z=lnP(x|C2)P(C2)P(x|C1)P(C1)



