吴恩达机器学习笔记一

机器学习
监督学习
无监督学习
单变量线性回归
代价函数
梯度下降
批量梯度下降

1.机器学习含义
机器学习(Machine Learning)是研究计算机怎样模拟或实现人类的学习行为，以获取新的
知识或技能，重新组织已有的知识结构使之不断改善自身的性能。
目标“让机器自己学习怎么来解决问题”
由Tom Mitchell定义的机器学习是，
一个好的学习问题或一个程序认为能从经验E中学习，解决任务T，达到性能度量值P，当且仅当有了经验E后，经过P评判，程序在处理T时的性能有所提升。
经验E 就是程序上万次自我练习的经验而任务 T 就是下棋。性能度量值 P ，就是它在与一
些新的对手比赛时，赢得比赛的概率。

2.主要内容

监督学习（参数/非参数算法，支持向量机，核函数，神经网络）
无监督学习（聚类，降维，推荐系统，深入学习推荐）
在机器学习的最佳实践（偏差、方差理论等）

3 监督学习
监督学习指我们给学习算法一个由“正确答案”组成的数据集。
吴恩达机器学习笔记一
横轴表示房子的面积，单位是平方英尺，纵轴表示房价，单位是
千美元。那基于这组数据，假如你有一个朋友，他有一套 750 平方英尺房子，现在他希望把
房子卖掉，想知道这房子能卖多少钱？
拟合一条直线推测出房子可卖$150000
二次方程拟合房子能卖出接近$200000 ，显然二次方程更好些！

在这个例子中，我们给了一系列房子的数据，我们给定数据集中每个样本的正确价格，
即它们实际的售价然后运用学习算法，算出更多的正确答案。比如那个新房子的价格。
用术语来讲，这叫做回归问题。我们试着推测出一个连续值的结果，即房子的价格。

假设说你想通过查看病历来推测乳腺癌良性与否，
吴恩达机器学习笔记一
这个数据集中，横轴表示肿瘤的大小，纵轴上，标出 1 和 0 表示是或者不是恶性肿瘤。我们之前见过的肿瘤，如果是恶性则记为 1，不是恶性，或者说良性记为 0。
或者用不同的符号表示良性和恶性肿瘤，良性的肿瘤改成用 O 表示，恶性的继续用 X 表示，来预测肿瘤的恶性与否。

分类指的是，我们试着推测出离散的输出值： 0 或 1 良性或恶性，
监督学习的基本思想是：数据集中的每个样本都有 “正确答案”，再根据这些样本做出预测。
就像房子和肿瘤的例子那样，用回归来推出连续的输出，分类的目标是推出一组离散的结果。
4 无监督学习
无监督学习中没有任何标签或者是相同的标签或者是没有标签。已知数据集，却不知如何处理，也未告知每个数据点是什么， 就是一个数据集。
其实，他就是学习策略，交给算法大量的数据，并让算法为我们从数据中找出某种结构。
无监督学习可用于组织大型计算机集群、社交网络分析、新闻事件分类、垃圾邮件问题等。
5 单变量线性回归
以房屋交易问题为例，假使我们回归问题的训练集如下表所示：
吴恩达机器学习笔记一

这就是一个监督学习算法的工作方式，我们可以看到这里有我们的训练集里房屋价格
我们把它喂给我们的学习算法，学习算法的工作了，然后输出一个函数，通常表示为小写 ℎ
表示。 ℎ 代表 hypothesis(假设)， ℎ表示一个函数，输入是房屋尺寸大小，就像你朋友想出售
的房屋，因此 ℎ 根据输入的 ????值来得出 ???? 值， ???? 值对应房子的价格因此， ℎ 是一个从????
到 ???? 的函数映射。
我将选择最初的使用规则ℎ代表 hypothesis，因而，要解决房价预测问题，我们实际上
是要将训练集“喂”给我们的学习算法，进而学习得到一个假设ℎ，然后将我们要预测的房屋
的尺寸作为输入变量输入给ℎ，预测出该房屋的交易价格作为输出变量输出为结果。那么，
对于我们的房价预测问题，我们该如何表达 ℎ？
一种可能的表达方式为： ℎ????(????) = ????0 + ????1????，因为只含有一个特征/输入变量，因此这样
的问题叫作单变量线性回归问题。
6 代价函数
吴恩达机器学习笔记一

这个问题中，每次拟合出不同的直线，就会有一个代价函数值，
我们的目标就是找出满足代价函数值最小的 θ0和θ1值。
7 梯度下降
梯度下降是一个用来求函数最小值的算法，我们可使用梯度下降自动找出代价函数J最小值。
吴恩达机器学习笔记一
通俗的理解：
想象一下你正站立在山的这一点上，站立在你想象的公园这座红色山上，在梯度下降算
法中，我们要做的就是旋转 360 度，看看我们的周围，并问自己要在某个方向上，用小碎步
尽快下山。这些小碎步需要朝什么方向？如果我们站在山坡上的这一点，你看一下周围，你
会发现最佳的下山方向，你再看看周围，然后再一次想想，我应该从什么方向迈着小碎步下
山？然后你按照自己的判断又迈出一步，重复上面的步骤，从这个新的点，你环顾四周，并
决定从什么方向将会最快下山，然后又迈进了一小步，并依此类推，直到你接近局部最低点
的位置。
吴恩达机器学习笔记一
其中????是学习率（ learning rate），它决定了我们沿着能让代价函数下降程度最大的方向
向下迈出的步子有多大，在批量梯度下降中，我们每一次都同时让所有的参数减去学习速率
乘以代价函数的导数。
它的关键是同时更新θ0，θ1
像这样：
吴恩达机器学习笔记一
注意： α太小，每次会一点点挪动，需要很多不才能到达全局最低点。
α太大，可能会越过最低点，甚至可能无法收敛，一次次越过最低点，直到越来越远，甚至发散。
假如 θ1在一个局部最低点，那么它的导数等于0，并且θ1不再改变，此时对其更新等于什么都没做，不会改变参数的值。并且θ1越接近最低点，每次移动步伐越小，直至最后不在改变。
吴恩达机器学习笔记一
8. 梯度下降的线性回归
有时也称为批量梯度下降，指的是在梯度下降的每一步中，我们都用到了
所有的训练样本，在梯度下降中，在计算微分求导项时，我们需要进行求和运算，所以，在
每一个单独的梯度下降中，我们最终都要计算这样一个东西，这个项需要对所有????个训练样
本求和。批量梯度下降说明了我们需要考虑所有这一批训练样本，每次只关注训练集中的一些小的子集。
吴恩达机器学习笔记一
之前的线性回归问题运用梯度下降，关键在于求出代价函数的导数。

更多内容参见：https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes

吴恩达机器学习笔记一

相关推荐