【深度之眼】吴恩达《机器学习》作业——week1机器学习基本概念

吴恩达《机器学习》作业——week1机器学习基本概念

课程链接为:https://ai.deepshare.net/detail/p_5df99dfe8c83a_qMnAGRok/6其中有详细的资料包括数据和代码

吴恩达课程链接为 https://www.bilibili.com/video/BV164411b7dx?p=2

通常来说机器学习的组成部分是任务T,经验或数据E,评估标准P。

一、一个简单的例子

我们的邮箱会自动的对邮件分成垃圾邮件和正常邮件两类。那么从机器学习的视角来看,对邮件进行(垃圾邮件和非垃圾邮件)分类就是任务 T。我们的经验或者数据 E 就是已经分好类的邮件(包括邮件和相应的标签)。我们的评估标准可以是分类的准确率即分类正确的邮件数量/总邮件数量。

二、工具和使用工具

吴恩达老师认为,仅仅知道或了解一些机器学习算法就相当于了解了一些工具,然而如何使用这些工具其实更为重要。吴老师举过一个木匠教学的例子,木匠会跟你说这是榔头,这是螺丝刀,这是锯子,好了你自己去做东西吧,祝你好运。这显然不是一个好的教学,所以仅仅知道这些工具是远远不够的,我们需要了解如何去使用这些工具。

三、线性回归

下图是一个地区的的房价散点图,横坐标表示房屋的面积,纵坐标为房屋的售价
【深度之眼】吴恩达《机器学习》作业——week1机器学习基本概念
所谓回归指的是根据我们的特征(这里就是房屋面积)我们建立一个模型能够对我们的目标变量进行估计或者说预测,而我们的目标变量是连续的变量,这里指的是房价。

所谓线性,指的是我们建立的模型是=θ0+θ1房价=\theta_0+\theta1*面积,这个模型只要参数θ0,θ1\theta_0,\theta_1确定了,模型也就确定了,即我们需要找到一条直线或者说找到比较好的θ0,θ1\theta_0,\theta_1使得我们估计的房价和真实的房价足够接近。

四、分类

下面是一个乳腺癌的一个分类问题,之所以称之为分类问题,是因为我们的目标变量或者说我们的预测变量是离散的,在这个问题中就是良性\恶性肿瘤(其中1代表恶性,0代表良性 )。

【深度之眼】吴恩达《机器学习》作业——week1机器学习基本概念
我们可以将数据全部投影到横轴(肿瘤大小 Tumor Size)上,这里圆圈代表良性肿瘤,叉代表恶性肿瘤。
【深度之眼】吴恩达《机器学习》作业——week1机器学习基本概念
前面都是用一个特征来判断一个样本是不是恶性肿瘤,现在我们再加入一个特征(年龄):

【深度之眼】吴恩达《机器学习》作业——week1机器学习基本概念

同样圆圈代表良性肿瘤,叉代表恶性肿瘤。我们可以画一条直线来将这两类样本进行划分,也就是我们所说的线性模型。

【深度之眼】吴恩达《机器学习》作业——week1机器学习基本概念

五、监督学习

所谓监督学习,就是我们的数据是有标签的,或者说我们处理的任务是有标准答案的,例如上面的房价估值问题,数据中不仅有房屋的面积还有其对应的房屋价格。