吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

第二章开始引入单变量的线性回归。线性回归基于输入值预测实值输出,本章讨论了线性回归在房价预测中的应用,提出了成本函数的概念,并介绍了学习的梯度下降方法。

Table of Contents

模型表示和代价函数(Model and Cost Function)

模型表示(Model Representation)

损失函数(Cost Function)

参数学习(Parameter Learning)


模型表示和代价函数(Model and Cost Function)

本节以房价预测问题为例,引入模型表示,和对应的代价函数的表示等相关概念。

模型表示(Model Representation)

 

我们使用吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable来表示输入变量(例如 房价预测中的居住面积),即输入特征。用吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable来表示输出(要预测的目标变量),一组吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable,称为一组训练样例。我们用于学习的的数据集就是一包括m个训练样例的集合,吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable;i=1,...,m——即训练集。我们还可以使用吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable来表示输入值的空间,并使用Y来表示输出值的空间。 在这个例子中,吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable = Y =ℝ。

为了更加正式地描述监督学习问题,我们的目标是,在给定训练集的情况下,学习函数h:吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable→Y,使得h(x)是y的对应值的“好”预测器。 由于历史原因,该函数h被称为假设。 从图中可以看出,这个过程是这样的:

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

当我们试图预测的目标变量是连续时,例如在我们的住房例子中,我们将学习问题称为回归问题。 当y只有少量离散值时(例如,如果给定生活区域,我们想要预测住宅是房屋还是公寓),我们将其称为分类问题。

损失函数(Cost Function)

我们可以使用成本函数来衡量我们的假设函数的准确性。

 

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

即方差。使用吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable因为便于梯度下降的计算。

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

我们试图建立一条直线吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable通过这些分散的数据点。

我们的目的就是得到一个最契合的直线,使得计算出的成本函数最小。理想情况下,该线应该通过我们的训练数据集的所有点。 在这种情况下,成本函数是0.下图即为这种情况:

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

再尝试几个不同的参数可知:

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable如下图所示:

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

此时可知,吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable最小为0 ,在吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable=1时。

 

等高线图是包含许多等高线的图形。 双变量函数的轮廓线在同一行的所有点处具有恒定值。 如下图所示。

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

取不同参数可知,对应于等高线图不同的位置:

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

可知最合适的参数,即最靠近中心的地方。

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

使用等高线图可以更直观的展示参数和代价函数之间的关系。

参数学习(Parameter Learning)

梯度下降

我们需要估计最好的参数,便引入了梯度下降概念。以吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable为x,y轴,吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable为z轴画图,如图所示:

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

当我们的成本函数位于图中凹坑的最底部时,我们将知道我们已经得到了最优参数。而开始的地点不同,到达的局部最优点也不一样,图中红箭头指向两个不同的极值点。

从而引入了梯度下降公式:

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

更新参数需要满足一致性,即一次更新所有的参数后再进行下一次迭代:

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

 

梯度下降的直观展示如图:

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

其中,学习率吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable的设置也应该合理,否则太大容易发散,不得收敛,而过小则会收敛过慢。如图可见

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

直至局部最优点,偏导数为0,参数不再改变(收敛)。

偏导数推导为

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

如下图可见,等高线图中梯度下降的路径。

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable

吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable