逻辑回归（分类算法）

背景

邮件中有垃圾邮件和正常邮件，如何过分辨垃圾邮件和正常邮件，从而过滤掉垃圾邮件。将正常与非正常分别用0，1来表示，则需要预测值为{0，1}这个集合中。

模型公式为：

h_{θ} (x) = \frac{1}{1 + e^{- θ^{T} x}}

这其实是一个信号函数，模型的曲线为下图的右下角：
machine learning个人笔记系列 (三)

我们拆分模型来看，其实是两个公式拼凑到一块：

h_{θ} (x) = g (θ^{T} x) g (z) = \frac{1}{1 + e^{- z}}

如果 $h_{θ} (x) >= 0.5$ 意味着 $θ^{T} x >= 0$

如果模型预测值与真实值一致，那模型就非常完美了。为了计算模型与真实值的差距，根据差距大小以此来选择合适的模型参数，让模型最接近真实值是模型的优化方向。为此定义如下损益函数来计算逻辑回归模型的预测值与真实值的差距：

C o s t (h_{θ} (x), y) = {\begin{aligned} - l o g (h_{θ (x)}) ， i f y = 1 \\ - l o g (1 - h_{θ} (x), i f y = 0 \end{aligned}

如下面两图左下角所示，上面是当 $y = 1$ 时的曲线图，下面是 $y = 0$ 时的曲线图。

machine learning个人笔记系列 (三)

为了更适合用梯度下降算法求解参数，转化一下损益函数为下面格式：

J (θ) = \frac{1}{m} \sum_{i = 1}^{m} C o s t (h_{θ} (x^{(i)}), y^{(i)}) = - \frac{1}{m} [\sum_{i = 1}^{m} y^{(i)} l o g h_{θ} (x^{(i)}) + (1 - y^{(i)}) l o g (1 - h_{θ}) (x^{(i)})]

每次迭代更新参数方式为：

θ_{j} := θ_{j} - α \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{j}^{(i)}

多分类问题是二分类的一个扩展，如下图所示，一个数据集里有三种类型数据，如何区分？
直观的想法是，将其转换为二分类问题，属于某一类和不属于某一类，这样分多次就形成了多分类模型。
machine learning个人笔记系列 (三)

具体的做法就是：
1. 为每一类 $i$ 数据训练一个模型 $h_{θ}^{(i)} (x)$
2. 对每个数据都使用所有模型求出预测值，将该数据分类为模型值最大的那个分类，即 $M a x h_{θ}^{(i)} (x)$