【吴恩达机器学习学习笔记01】监督学习和无监督学习介绍
监督学习和无监督学习介绍
一、监督学习 Supervised Learning
1、回归问题
假如现在已经有了一系列的数据集是关于房价的。横坐标是房子的大小,纵坐标是房子的价格。假如你朋友有房子,750英尺,机器学习怎么帮助他给房子合适的标价方便卖掉?
监督学习(Supervised Learning)意指给出一个算法(你可以用线性或者非线性的模型,就像老师的两条直线)需要部分数据已经有正确答案。就像上面关于房价预测的数据中,房子实际卖出的价格就是正确答案,然后通过这些正确答案,算出你朋友房子的价格。所以监督学习也称回归问题(预测一个连续值的输出,比如房价)。
2、分类
图中是一个关于乳腺癌预测的数据集:横坐标(肿瘤的大小),纵坐标 (良性/恶性)。假设有一个人得了肿瘤,大小为粉红色箭头所指的数轴对应的值,能否通过预测他的肿瘤的良性还是恶性?这就是一个分类问题(预测一个离散值输出,如0/1,良性/恶性)。
当然,我们的分类结果不一定是像这里是二分类的,还可以是多分类的。而且这里只用到了一个特征——Tumor Size,让我们来看下面这个例子,就用到了两个特征:病人年龄和肿瘤大小!
在其他机器学习任务和算法中还是会有更多特征(如肿块厚度、尺寸均匀性、均匀性)。
在其他学习算法中可能用到无数多个特征、属性和线索进行预测,计算机溢出和储存问题就出现了,不过SVM(支持向量机)有一个简洁的数学方法,能让电脑处理无限多的特征。
二、无监督学习 Unsupervised Learning
下面是一个基因芯片的例子,基本思想:给定不同个体,对于每个个体检测是否有特定基因(多少基因被显现出来)。
这里的颜色展现了这些不同个体是否拥有一个特定基因的不用程度。我们只要做一个聚类算法,像上面这样把不同个体归入不同的类中即可。
对于这类数据样本来说,没有描述它的类型或者属性,然后让算法自动按照得到的类型进行分类,就是所谓的无监督学习。
当然还有很多其他方面的应用:比如数据中心、网络的关系发现等。
还有一个比较著名的鸡尾酒舞会问题:两个麦克风分别距离两个测试员不同距离,然后利用机器学习对这些声音进行分离。
最后,吴恩达老师推荐我们学习Octave或者matlab,在硅谷很多都是通过这些建立程序原型,然后确认可行再用其他编程语言进行实现。