Andrew Ng机器学习笔记（一）

第一篇博客，很有纪念意义，献给让人激动人心的ML，也感谢吴恩达老师的精彩讲解。

我觉得，真正理解一个东西，要能够用通俗易懂的方式将它讲述出来。吴恩达老师的课是这方面的典型代表。

1.机器学习的定义

假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中任务上获得了性能改善，则我们就说关于T和P，，改程序对E进行了学习。 —— [ Mitchell,1997 ]

2.机器学习算法分类

supervised learning ：我们教计算机如何做事情
unsupervised learning：计算机自己学习
reinforcement learning
recommender systems

监督学习：对于训练的数据集，标示明确的实际结果（如标明样本的房价，肿瘤的良性与恶性）。可分为：

监 督 学 习 {回 归 (R e g r e s s i o n) 分 类 (C l a s s i f i c a t i o n) 预 测 的 是 连 续 值 预 测 离 散 值

非监督学习：在非监督式学习中，数据并不被特别标识，学习模型是为了推断出数据的一些内在结构。非监督学习中，数据将会被分为不同的cluster(簇),称为cluster algorithm。如新闻网页的专题分类。
Andrew Ng机器学习笔记（一）

3.单变量线性回归

算法的工作原理如下图。用训练集“喂养”我们的学习算法，形成假设函数h。然后，对输入的x值，输出相应的预测值y。相当于是存在一个映射关系：y=f(x)
Andrew Ng机器学习笔记（一）

代价函数：用来选择最合适的曲线。在假设函数hθ中,有两个未知量，选择不同的参数值，最终的效果肯定是不一样的，如下图。
Andrew Ng机器学习笔记（一）

那么该如何选择呢？我们的想法是，选择某个θ0和θ1，使得对于样本(x,y)，hθ(x)最“接近”于y。越是“接近”，表明我们的假设函数越是精确。对于“接近”的刻画，让我们给出数学上的标准定义：

m i n i m i z e θ 0, θ 1 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

在线性回归中，我们要解决的是一个最小化问题。其中的12只是为了后面计算的方便。
我们记

J (θ 0, θ 1) = 1 2 m \sum i = 0 m (h θ (x (i)) - y (i)) 2

这样我们就得到了代价函数(cost function)。此处也称为平方误差函数，当然也有其他的代价函数。但是对于大多数问题，尤其是回归问题，平方误差函数都是一个合理的选择，“其可能是解决回归问题最常用的手段了”。
如此，我们的目标就是要让代价函数最小：

m i n i m i z e θ 0, θ 1 J (θ 0, θ 1)

Andrew Ng机器学习笔记（一）

代价函数如何工作：
为了更方便地探究hθ(x)与J(θ0,θ1)的关系, 先令θ0等于0, 得到了简化后的假设函数hθ(x)=θ1x，如下图所示。
Andrew Ng机器学习笔记（一）

参数θ1是我们要确定的，对于不同的θ1，我们可以画出不同的假设函数曲线，进而算出相应的代价函数值（代价函数取名是很到位的，由于我们不知道真实具体的函数关系，那么我们所有的假设都会存在一定的偏差，也就是要付出的代价，我们所有做的事情就是要让这个代价变得最小）。代价函数，反应了每一种假设情况下我们要付出的“代价”。反应在图中，如下：
Andrew Ng机器学习笔记（一）

通过观察J(θ1)的函数图像，我们可以找到最小值时对应θ1值。在本例中，θ1=1。

代价函数的进一步理解：
现在研究代价函数J是如何在最初的线性回归公式中工作。
此时，不再假设θ0=0，存在两个变量θ0、θ1，那么代价函数为J(θ0,θ1)。而且，我们知道这是一个三维的曲面。回顾上一节单变量情况下代价函数的特点，可知这个三维曲面是“碗型的”，如下：
Andrew Ng机器学习笔记（一）

为了方便讨论，一般将其表示为“等高线图”，以二维的形式予以展现。对于不同的θ0和θ1，我们仍然可以计算得出相应的代价函数。越靠近中心，代价函数越小，离我们最终的理想结果越接近。我们可以不断地进行调试，得到不同的数值。那么，有没有比较快速的方法来达到目的呢？这就需要介绍下面的梯度算法了。
Andrew Ng机器学习笔记（一）

梯度下降算法：
梯度下降算法是一种优化算法, 它可以帮助我们找到一个函数的局部极小值点。
首先要知道方向导数、偏导数与梯度的概念。它们均涉及到函数的变化率，也就是增长的问题。对于高维函数，偏导数只是函数在坐标轴方向的变化率，但是很明显，函数可以有无数个方向（在xy平面内考虑）的变化，也就是方向导数。梯度，则是这所有中函数值增长最快的方向，考虑山丘地形，意味着最陡峭的地方。那么，我们的代价函数目标则是求最小值，只要沿着梯度相反方向，就可以最快到达目的地了。
算法描述：
Andrew Ng机器学习笔记（一）