您的位置: 首页 > 文章 > 吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

分类: 文章 • 2023-03-28 14:02:31

第二章开始引入单变量的线性回归。线性回归基于输入值预测实值输出，本章讨论了线性回归在房价预测中的应用，提出了成本函数的概念，并介绍了学习的梯度下降方法。

Table of Contents

模型表示和代价函数（Model and Cost Function）

模型表示（Model Representation）

损失函数（Cost Function）

参数学习（Parameter Learning）

模型表示和代价函数（Model and Cost Function）

本节以房价预测问题为例，引入模型表示，和对应的代价函数的表示等相关概念。

模型表示（Model Representation）

我们使用吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable 来表示输入变量（例如房价预测中的居住面积），即输入特征。用来表示输出（要预测的目标变量），一组，称为一组训练样例。我们用于学习的的数据集就是一包括m个训练样例的集合，吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable ;i=1,...,m——即训练集。我们还可以使用来表示输入值的空间，并使用Y来表示输出值的空间。在这个例子中， = Y =ℝ。

为了更加正式地描述监督学习问题，我们的目标是，在给定训练集的情况下，学习函数h：吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable →Y，使得h(x)是y的对应值的“好”预测器。由于历史原因，该函数h被称为假设。从图中可以看出，这个过程是这样的：

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

当我们试图预测的目标变量是连续时，例如在我们的住房例子中，我们将学习问题称为回归问题。当y只有少量离散值时（例如，如果给定生活区域，我们想要预测住宅是房屋还是公寓），我们将其称为分类问题。

损失函数（Cost Function）

我们可以使用成本函数来衡量我们的假设函数的准确性。

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

即方差。使用吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable 因为便于梯度下降的计算。

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

我们试图建立一条直线吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable 通过这些分散的数据点。

我们的目的就是得到一个最契合的直线，使得计算出的成本函数最小。理想情况下，该线应该通过我们的训练数据集的所有点。在这种情况下，成本函数是0.下图即为这种情况：

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

再尝试几个不同的参数可知：

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable 如下图所示：

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

此时可知，吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable 最小为0 ，在=1时。

等高线图是包含许多等高线的图形。双变量函数的轮廓线在同一行的所有点处具有恒定值。如下图所示。

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

取不同参数可知，对应于等高线图不同的位置：

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

可知最合适的参数，即最靠近中心的地方。

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

使用等高线图可以更直观的展示参数和代价函数之间的关系。

参数学习（Parameter Learning）

梯度下降

我们需要估计最好的参数，便引入了梯度下降概念。以吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable 为x,y轴，为z轴画图，如图所示：

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

当我们的成本函数位于图中凹坑的最底部时，我们将知道我们已经得到了最优参数。而开始的地点不同，到达的局部最优点也不一样，图中红箭头指向两个不同的极值点。

从而引入了梯度下降公式：

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

更新参数需要满足一致性，即一次更新所有的参数后再进行下一次迭代：

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

梯度下降的直观展示如图：

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

其中，学习率吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable 的设置也应该合理，否则太大容易发散，不得收敛，而过小则会收敛过慢。如图可见

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

直至局部最优点，偏导数为0，参数不再改变（收敛）。

偏导数推导为

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

如下图可见，等高线图中梯度下降的路径。

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable