Week 3——Machine learning by Pro.Andrew Ng (cousera)——notebook

一.概述

在第三周的课程中，主要对逻辑回归（Logistic Regression）和正则化（Regularization）两大部分进行了介绍。其中逻辑回归（Logistic Regression）旨在解决监督学习（Supervised learning）中回归问题之外的另一大类问题——分类问题；正则化（Regularization）则是用于解决机器学习应用过程中的过拟合（overfitting）问题。
Week 3——Machine learning by Pro.Andrew Ng (cousera)——notebook
（关于Machine learning by Pro.Andrew Ng 的更多资源请关注图中微信公众号——针知与拙见获取）

在第三周的学习中主要应当掌握以下几个主要概念
- 逻辑回归（Logistic Regression）
- one-vs-all in Multi Classification
- 正则化（Regularization）

以及其中概念所对应的函数/向量表达式

1 逻辑回归的模型假设（Model Representation of Logistic Regression）

—— $h_{θ} (x) = g (θ^{T} X)$
将g函数表达式写出得：
—— $h_{θ} (x) = \frac{1}{1 + e^{- θ^{T} X}}$

2 逻辑回归的代价函数（Cost Function of Logistic Regression ）
—— $J (θ) = \frac{1}{m} C o s t (h_{θ} (x^{i}), y^{i})$
当y=1时 $C o s t (h_{θ} (x), y) = - l o g (h_{θ} (x))$
当y=0时 $C o s t (h_{θ} (x), y) = - l o g (1 - h_{θ} (x)))$

简化的形式为 $C o s t (h_{θ} (x), y) = - y l o g (h_{θ} (x) - (1 - y) l o g (1 - h_{θ} (x))$

3 逻辑回归的梯度下降算法（Gradient Descent of Logistic Regression ）

$θ_{j} := θ_{j} - α \sum_{i = 1}^{m} (h_{θ} (x^{i} - y^{i}) x_{j}^{i}$

4 多类分类（Multi Classification）
—— $θ = (X^{T} X)^{- 1} X^{T} y$

$y \in 0, 1... n$

$h_{θ}^{0} (x) = P (y = 0 | x; θ)$

$h_{θ}^{1} (x) = P (y = 0 | x; θ)$
…
$h_{θ}^{n} (x) = P (y = 0 | x; θ)$

二.逻辑回归（Logistic regression）

definition:用以处理除线性回归外的其他离散值(不连续值)分类问题的方法叫Logistic Regression（逻辑回归）。

1.二元分类问题

与处理回归问题时不同，在处理分类问题时，我们的输出向量y不是一个连续的范围，而是只有0或1两个数值。

$y \in 0, 1$

通常y=0时称为负类，y=1时称为正类。

(1) 模型假设

我们的假设应该满足 $0 \leq h_{θ} (x) \leq 1$

在逻辑回归问题中，我们用到了一个新的函数形式——“Sigmoid Function”又称“Logistic Function”

其函数形式为： $g (z) = \frac{1}{1 + e^{- z}}$

针对二元分类问题，其应用方式为： $h_{θ} (x) = g (θ^{T} x) z = θ^{T} x$

将z带入可得 $h_{θ} (x) = g (θ^{T} x) = \frac{1}{1 + e^{- θ^{T} x}}$
Week 3——Machine learning by Pro.Andrew Ng (cousera)——notebook

我们希望从过去使用的线性回归的模型假设出发，将y的范围限制为{0，1}。所以实际上逻辑回归的模型假设 $h_{θ} (x)$ 的值表示的是y输出为1时的可能性(probability)举例说明，当 $h_{θ} (x) = 0.8$ 则表示输出为1的可能性为80%。

$h_{θ} (x) = P (y = 1 | x; θ) = 1 - P (y = 0 | x; θ)$
$P (y = 0 | x; θ) + P (y = 1 | x; θ) = 1$

我们预测输出为0的概率只是我们输出为1的概率的补充，即若输出为1的概率为80%，则输出为0的概率为20%。

(2) 决策边界/判定边界(Decision Boundary)

为了得到离散的0或1分类，我们需要将假设函数的输出进行如下的转换：

$h_{θ} (x) \geq 0.5 \to y = 1$
$h_{θ} (x) < 0.5 \to y = 0$

实际上我们可以通过sigmoid函数的图像直接看出，当 $z = θ^{T} x \geq 0$ 时 $h_{θ} (x) = g (z) \geq 0.5$

同样的，我们也可以从函数图像看出：
当 $z \to \infty$ 时 $g (z) = 1$
当 $z \to - \infty$ 时 $g (z) = 0$

综上，当 $θ^{T} x \geq 0$ 时 $y = 1$
当 $θ^{T} x < 0$ 时 $y = 0$

决策边界是分隔y = 0和y = 1的区域的直线。它的位置由我们假设函数的形式决定。

举例说明：

当 $θ = [\begin{matrix} 6 \\ - 2 \\ 0 \end{matrix}]$ 时

$y = 1$ $i f$ $6 + (- 2) x_{1} + 0 x_{2} \geq 0$

则 $i f$ $6 - (- 2) x_{1} \geq 0$

即 $x_{1} \leq 3$

在这种情况下，我们的决策边界是在图表上垂直且 $x_{1} = 3$ 的直线，所有在直线左边的点均有 $y = 1$ ，所有在直线右边的点均有 $y = 0$ 。

注意：输入sigmoid function函数 $g (z)$ 的并不局限于特征x的一次多项式，只要能够与数据很好的拟合，输入的形式可以是多种多样的（e.g. $z = θ_{0} + θ_{1} x_{1}^{3} + θ_{2} x_{2}^{3}$ ）。

其向量表示形式为:
$h_{θ} (x) = [θ_{0} θ_{1} θ_{2} . . . θ_{n}]$ $[\begin{matrix} x_{0} \\ x_{1} \\ x_{2} \\ ⋮ \\ x_{n} \end{matrix}]$ $= θ^{T} x$

2.代价函数（Cost Function）

我们不能使用与线性回归相同形式的代价函数，因为Logistic Function会导致输出波动，从而导致产生许多的局部最优点。换句话说，如果直接使用与线性回归相同形式的代价函数，我们将得到的是一个非凸函数。

所以逻辑回归的代价函数形式为:

$J (θ) = \frac{1}{m} \sum_{i = 1}^{m} C o s t (h_{θ} (x^{(i)}) ， y^{(i)})$

$i f$ $y = 1$ $C o s t (h_{θ} (x) ， y) = - l o g (h_{θ} (x))$

$i f$ $y = 0$ $C o s t (h_{θ} (x) ， y) = - l o g (1 - h_{θ} (x))$

如果经由模型假设得到的y越偏离实际的y值，成本函数输出越大。如果我们模型假设得到的y值与实际输出恰好相同，则我们的代价函数为0。

$C o s t (h_{θ} (x) ， y) = 0$ $i f$ $h_{θ} (x) = y$

$C o s t (h_{θ} (x) ， y) \to \infty$ $i f$ $y = 0$ $a n d$ $h_{θ} (x) \to 1$

$C o s t (h_{θ} (x) ， y) \to \infty$ $i f$ $y = 1$ $a n d$ $h_{θ} (x) \to 0$

当模型假设的输出与实际输出一致时（都为0或者都为1），那么代价函数的值则为0。当模型假设的输出与实际输出不一致时，代价函数的值趋向于无穷。由此规律可以很明显的看出，采用如此表达形式的代价函数为凸函数。

3.简化的代价函数和梯度下降（Simplified Cost Function and Gradient Descent）

(1）简化的代价函数

我们可以用简单的小技巧，将上文中提到的两种情况下的代价函数合并为一个代价函数：

$C o s t (h_{θ} (x) ， y) = - y l o g (h_{θ} (x)) - (1 - y) l o g (1 - h_{θ} (x)$

然后我们可以完整地写出整个代价函数如下：

$J (θ) = - \frac{1}{m} \sum_{i = 1}^{m}$ $[y^{(i)} l o g (h_{θ} (x^{(i)}) + (1 - y^{(i)}) l o g (1 - h_{θ} (x^{(i)})]$

(2）梯度下降

$θ_{j} := θ_{j} - \frac{α}{m} \sum_{i = 1}^{m} (h_{θ} (x^{i}) - y^{i}) x_{j}^{i}$

需要注意的是，该梯度下降算法与我们在线性回归中使用的算法相同。我们在使用时同样需要同时更新theta中的所有值。

3.多类分类问题（Multiclass Classification: One-vs-all）

当我们解决多类分类问题的时候，我们与解决二分类问题时采用的方法一致，只不过将 $y$ 的范围由 $0, 1$ 拓展到 $0, 1, 2, . . ., n$

在这种情况下，我们将问题分为n + 1个二元分类问题;在每一次分类时，我们将得到y为其中某一个类的概率。

$y \in$ {0,1…n}

$h_{θ}^{0} (x) = P (y = 0 | x; θ)$

$h_{θ}^{1} (x) = P (y = 1 | x; θ)$
…
$h_{θ}^{n} (x) = P (y = n | x; θ)$

$p r e d i c t i o n = m a x_{i} (h_{θ}^{i} (x))$

我们首先选择一个类，然后将所有其他归为第二个类。通过反复操作，对每个案例应用二元逻辑回归，然后使用返回最高值的假设作为我们的预测。

三.正则化（Regularization）

purpose:正则化旨在解决过拟合问题

过度拟合或high variance 通常由过度复杂的模型假设引起，它会产生许多与数据无关的不必要的曲线和角度。

过拟合问题有两个主要选择：
1）减少特征数量：
a）手动选择要保留的特征。
b）使用模型选择算法
2）正则化
保留所有特征，但减少参数 $θ_{j}$

代价函数(Cost Function)

如果我们发现代价函数过拟合，那么我们可以通过减少部分参数对函数影响的权重来解决过拟合问题。

举例说明:

假设我们想要如下函数更加二次特征化

$θ_{0} + θ_{1} x + θ_{2} x^{2} + θ_{3} x^{3} + θ_{4} x^{4}$

我们想要在存在这些特征或者不改变我们模型假设的形式的情况下，消除 $θ_{3} x^{3}$ $θ_{4} x^{4}$ 的影响。那这个时候我们可以修改代价函数：

$m i n_{θ} \frac{1}{2 m} \sum_{i = 1}^{m} (h_{θ} (x^{i}) - y^{i})^{2} + 1000 θ_{3}^{2} + 1000 θ_{4}^{2}$

我们在最后添加了两个额外的 $θ_{3}$ $θ_{4}$ 的二次项，目的是为了膨胀 $θ_{3}$ 和 $θ_{4}$ 的代价。在这样的情形下，为了让代价函数尽可能地接近0，我们就必须要尽可能地减小 $θ_{3}$ 和 $θ_{4}$ 的值，让他们二者尽可能的接近0，这反过来会大大降低 $θ_{3} x^{3}$ 和 $θ_{4}^{4}$ 对模型假设函数的影响。

我们可以将所有的 $θ$ 参数的正则化写到一起：

$m i n_{θ} \frac{1}{2 m} [\sum_{i = 1}^{m} (h_{θ} (x^{i}) - y^{i})^{2} + λ \sum_{j = 1}^{n} θ_{j}^{2}]$

λ是正则化参数，它决定了我们的θ参数的成本被放大的程度。

使用上述成本函数和额外的正则化项，我们可以平滑我们假设函数的输出以减少过度拟合。但如果选择 $λ$ 太大，它可能会使函数过于平滑而导致欠拟合。

文中部分内容取自Pro.Andrew Ng 于cousera上发布的Machine learning 公开课的Week 3 Lecture Notes。其他内容均由个人整理撰写，如需要更多机器学习的学习资源欢迎关注微信公众号：针知与拙见并在后台留言。
[1] https://www.coursera.org/learn/machine-learning/
[2] 微信公众号——针知与拙见

Week 3——Machine learning by Pro.Andrew Ng (cousera)——notebook

相关推荐