分类问题和logistic回归

前面我们学习了数据的一些线性关系，这次我们将讨论另一类问题，即分类问题，相比于前面讲到的x于y存在线性对应关系，分类问题的y取值只包含0和1，这更像是给x的标签，将x归入不同的类别。

logistic回归

我们可以忽略分类问题中y是离散值的事实，利用线性回归的思想去处理分类问题，但是你会很容易找到例子指出这种做法的不合理性，所以我们需要用一种新的方式分析该类问题。

首先，和线性回归的分析方法类似，我们先提出假设模型：

机器学习日志4

这里，特别指出：

机器学习日志4

被称为logistic 函数或者sigmoid 函数，它的曲线像这样：

机器学习日志4

当z接近于+∞时g(Z)趋向于1，反之趋向于0，所以函数的值是[0,1]之间的实数。在开始下一步之前，我们先补充一些关于g的导数概念：

机器学习日志4

为了能够利用最大似然的方法估计参数????我们首先假设：

机器学习日志4

结合上面的导数知识可以讲其写成：

机器学习日志4

这样我们便可以利用极大似然估计方法写出似然函数：

机器学习日志4

为方便计算进行取对运算：

机器学习日志4

我们可以利用我们前面学习过的梯度下降原理来最大化似然函数，不过这里不同的是由于需要最大化参数????，所以等式中使用了加号：

机器学习日志4

其中：

机器学习日志4

第一行的最后一项利用了前面介绍的导数规律，最终我们得到随机梯度上升的等式：

机器学习日志4

这和前面学习的梯度下降类似，但是注意其中的不同在于函数h的定义为：

机器学习日志4