二 、单变量线性回归(Linear Regression with One Variable)
2.1 模型表示
预测住房价格,
2.2 代价函数
如何把最有可能的直线与我们的数据相拟合模型所预测的值与训练集中实际值之间的差距(下图中蓝线所指)就是建模误差(modeling error)
我们的目标便是选择出可以使得建模误差的平方和能够最小的模型参数。 即使得代价函数最小代价函数也被称作平方误差函数,有时也被称为平方误差代价函数。我们之所以要求出误差的平方和,是因为误差平方代价函数,对于大多数问题,特别是回归问题,都是一个合理的选择
2.3 代价函数的直观理解I
2.4 代价函数的直观理解II
我们真正需要的是一种有效的算法,能够自动地找出这些使代价函数取最小值的参数
2.5 梯度下降
寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做直到到到一个局部最小值。选择不同的初始参数组合,可能会找到不同的局部最小值
批量梯度下降(batch gradient descent)算法的公式为a是学习率(learning rate),我们每一次都同时让所有的参数减去学习速率乘以代价函数的导数
计算出右边值两个值,同时更新两个参数,同步更新是更自然的实现方法
2.6 梯度下降的直观理解
a学习率,斜率,如果a太小,收敛慢,步数多;a太大,可能跨越最低点,无法收敛。接近局部最低点时,局部最低时导数等于零。
结合梯度下降法,以及平方代价函数,我们会得出第一个机器学习算法,即线性回归算法
2.7 梯度下降的线性回归
梯度下降算法应用于具体的拟合直线的线性回归算法里
线性回归算法(线性回归函数和平方误差代价函数)
梯度下降(求代价函数的极值,得到线性回归函数对应的参数)
”批量梯度下降”,指的是在梯度下降的每一步中,我们都用到了所有的训练样本。在梯度下降中,在计算微分求导项时,我们需要进行求和运算,需要对所有个训练样本求和。
也有其他类型的梯度下降法,不是这种"批量"型的,不考虑整个的训练集
高等线性代数,计算代价函数最小值的数值解法,正规方程(normal equations)的方法
数据量较大的情况下,梯度下降法比正规方程要更适用
泛化的梯度下降算法
2.8 接下来的内容(线性代数)
什么是矩阵和向量,谈谈如何加、减 、乘矩阵和向量,讨论逆矩阵和转置矩阵的概念