机器学习(十七)——高斯判别分析模型(The Gaussian Discriminant Analysis model)
原文:http://cs229.stanford.edu/notes/cs229-notes2.pdf
当我们有一个输入特征x是连续值随机变量的分类问题时,我们可以使用高斯判别分析(GDA)模型,该模型p(x|y)使用多元正态分布。这个模式为:
写出它的展开形式,如下所示:
这里,我们的模型的参数是φ,Σ,µ0和µ1。(请注意,当存在两个不同的均值向量µ0和µ1时,通常只使用一个协方差矩阵Σ。)这些数据的对数似然为:
通过对参数进行最大化,我们发现参数的最大似然估计是:
从图片上看,该算法所做的工作如下所示:
图中显示的是训练集,以及两个高斯分布的轮廓,它们适合于这两个类中的每个类中的数据。请注意,这两个高斯分布的轮廓形状和方向是相同的,因为他们共享一个协方差矩阵Σ,但它们的均值分别是µ0和µ1。图中还显示了给出决策边界的直线,在这条直线上,p(y=1|x)=0.5。在边界的一边,我们预测y=1是最有可能的结果,而在另一边,我们预测y=0。