机器学习日志4

分类问题和logistic回归

​ 前面我们学习了数据的一些线性关系,这次我们将讨论另一类问题,即分类问题,相比于前面讲到的x于y存在线性对应关系,分类问题的y取值只包含0和1,这更像是给x的标签,将x归入不同的类别。

logistic回归

​ 我们可以忽略分类问题中y是离散值的事实,利用线性回归的思想去处理分类问题,但是你会很容易找到例子指出这种做法的不合理性,所以我们需要用一种新的方式分析该类问题。

首先,和线性回归的分析方法类似,我们先提出假设模型:

机器学习日志4

这里,特别指出:

机器学习日志4

被称为logistic 函数或者sigmoid 函数,它的曲线像这样:

机器学习日志4

当z接近于+∞时g(Z)趋向于1,反之趋向于0,所以函数的值是[0,1]之间的实数。在开始下一步之前,我们先补充一些关于g的导数概念:

机器学习日志4

为了能够利用最大似然的方法估计参数????我们首先假设:

机器学习日志4

结合上面的导数知识可以讲其写成:

机器学习日志4

这样我们便可以利用极大似然估计方法写出似然函数:

机器学习日志4

为方便计算进行取对运算:

机器学习日志4

我们可以利用我们前面学习过的梯度下降原理来最大化似然函数,不过这里不同的是由于需要最大化参数????,所以等式中使用了加号:

机器学习日志4

其中:

机器学习日志4

第一行的最后一项利用了前面介绍的导数规律,最终我们得到随机梯度上升的等式:

机器学习日志4

这和前面学习的梯度下降类似,但是注意其中的不同在于函数h的定义为:

机器学习日志4