吴恩达《机器学习》课程笔记---第二章 Linear Regression with One Variable
第二章开始引入单变量的线性回归。线性回归基于输入值预测实值输出,本章讨论了线性回归在房价预测中的应用,提出了成本函数的概念,并介绍了学习的梯度下降方法。
Table of Contents
模型表示和代价函数(Model and Cost Function)
模型表示和代价函数(Model and Cost Function)
本节以房价预测问题为例,引入模型表示,和对应的代价函数的表示等相关概念。
模型表示(Model Representation)
我们使用来表示输入变量(例如 房价预测中的居住面积),即输入特征。用
来表示输出(要预测的目标变量),一组
,称为一组训练样例。我们用于学习的的数据集就是一包括m个训练样例的集合,
;i=1,...,m——即训练集。我们还可以使用
来表示输入值的空间,并使用Y来表示输出值的空间。 在这个例子中,
= Y =ℝ。
为了更加正式地描述监督学习问题,我们的目标是,在给定训练集的情况下,学习函数h:→Y,使得h(x)是y的对应值的“好”预测器。 由于历史原因,该函数h被称为假设。 从图中可以看出,这个过程是这样的:
当我们试图预测的目标变量是连续时,例如在我们的住房例子中,我们将学习问题称为回归问题。 当y只有少量离散值时(例如,如果给定生活区域,我们想要预测住宅是房屋还是公寓),我们将其称为分类问题。
损失函数(Cost Function)
我们可以使用成本函数来衡量我们的假设函数的准确性。
即方差。使用因为便于梯度下降的计算。
我们试图建立一条直线通过这些分散的数据点。
我们的目的就是得到一个最契合的直线,使得计算出的成本函数最小。理想情况下,该线应该通过我们的训练数据集的所有点。 在这种情况下,成本函数是0.下图即为这种情况:
再尝试几个不同的参数可知:
如下图所示:
此时可知,最小为0 ,在
=1时。
等高线图是包含许多等高线的图形。 双变量函数的轮廓线在同一行的所有点处具有恒定值。 如下图所示。
取不同参数可知,对应于等高线图不同的位置:
可知最合适的参数,即最靠近中心的地方。
使用等高线图可以更直观的展示参数和代价函数之间的关系。
参数学习(Parameter Learning)
梯度下降
我们需要估计最好的参数,便引入了梯度下降概念。以为x,y轴,
为z轴画图,如图所示:
当我们的成本函数位于图中凹坑的最底部时,我们将知道我们已经得到了最优参数。而开始的地点不同,到达的局部最优点也不一样,图中红箭头指向两个不同的极值点。
从而引入了梯度下降公式:
更新参数需要满足一致性,即一次更新所有的参数后再进行下一次迭代:
梯度下降的直观展示如图:
其中,学习率的设置也应该合理,否则太大容易发散,不得收敛,而过小则会收敛过慢。如图可见
直至局部最优点,偏导数为0,参数不再改变(收敛)。
偏导数推导为
如下图可见,等高线图中梯度下降的路径。