coursera课程 machine learning 笔记 (一)

课程讲师:Andrew Ng 吴恩达(斯坦福教授,百度首席科学家)
课程地址https://www.coursera.org/learn/machine-learning/lecture/1VkCb/supervised-learning

(注:括号里基本上是我自己的理解,如有错误请指出,勿喷,少男身少女心,谢谢。)

首先对简单说说我对人工智能的认识:人工智能的本质之一是预测,就是通过学习之后通过建模,然后再利用所得的模型来预测或决策未知的数据。

Supervised learning 监督学习(又分回归和分类):它理解为,我们给算法一些已有的样本(此处为:一些房子的面积和其对应的价格),算法从中学习一组模型(通俗点,可以说是规律吧),然后算法利用这个学习到的模型来预测未知数据(大意为:我们再给算法一个房子面积,它给我们预测出房子可能的价值)。(回归好像属于监督的一种)。

(这是我前一阵子数据挖掘考试背的监督学习的定义,不知道记错了没):监督学习,利用一组已知的样本(即为给定的数据集:输入集,和它们对应的结果:正确的输出集)来调整挖掘器(忘了是不是这个器)的参数,使其达到性能最优的过程。


(概念可以结合下面例子来看。)
(一些(叫的)专业术语的概念:

离散变量:是指其数值只能用自然数或整数单位计算的则为离散变量.例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得.。
反之,在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值(例如:我可以取1,也可以取1.1,1.11,1.2,1.21···,).例如,生产零件的规格尺寸,人体测量的身高,体重,胸围等为连续变量,其数值只能用测量或计量的方法取得。
回归问题:预测的结果是一个连续变量(又叫连续值)的问题(注意:在一些预测结果是实际值的时候,虽然结果不能无限分,可是它的结果有很多很多;例如一个淘宝店还有几千件产品,预测它三个月能卖多少件货物,这一例子在原视频里讲到了,,,,我还是只好(谁叫它太多了)把它当成一个回归问题了)。
离散问题:应该也可以叫分类问题,指预测的结果是一个离散变量(离散值)的问题。


例子(回归问题):
coursera课程 machine learning 笔记 (一)
X:房子面积 Y:房子价钱

问题描述:
看图应该可以领会。

问:
用学习算法帮你预测你(750m2)的房子能卖多少?(预测的结果:房子的价格(是连续值))
一种情况:你给学习算法的模型是一条直线(尽可能多的穿过平面上的点):得出价钱大概为150
还可以:你给学习算法的模型是曲线(平方函数:二次多项式函数)(同样尽可能多的穿过点):得出价钱大概200

两种算法都能得到一个结果,但是结果又不同,我们该选择哪个算法更好呢?(视频还没讲到<额!>这里主要介绍无监督学习具体是什么)

下一个例子(离散问题):
coursera课程 machine learning 笔记 (一)
问题描述:
我们用算法来判断医学上肿瘤是否是恶性的,而我们判断的依据(特征)为:肿瘤的大小。
如图,我们给定一些样本,算法通过拟合(匹配,类似于上一问题的直线尽可能的穿过样本点)来训练出一个模型(规律),然后利用这个模型来预测一个新的数据的结果(给一个新的肿瘤块的大小,来预测它是否恶性或者良性。)
(注:不要纠结于肿瘤块的大小与肿瘤是否恶性的关系,也许肿瘤大,但我是个好肿瘤呢)
(预测的结果:肿瘤是良性、肿瘤是恶性(是离散值))

在更复杂的问题里也许会有更多的特征(如:病人年龄、肿瘤形状等),更多的结果(无肿瘤,1号肿瘤,2号肿瘤等),如下图:
coursera课程 machine learning 笔记 (一)

这时我们会让算法将样本分类(如图)。然后需要预测的数据在哪个类别中,算法就会给出相应的预测结果。

转载请注明出处。