机器学习相关概念、分类、要解决的任务

一 机器学习相关概念

在谈及机器学习的前面,我们先来看一个现实生活中的小实例。

比如,先从第一步 “挑芒果”说起。

  • 一开始妈妈告诉你: “ 金黄色的要比浅黄的更甜些!”
  • 后来你发现:“那些大个儿的、金黄色的芒果一定是的,而那些小个儿 的、金黄的就只有一半是甜的了”
  • 后来你又发现:“那些小个的、浅黄的芒果是当中最甜的”
  • 有一天你去了其他国家,然后你发现:“ 绿色的竟然要比黄色的味道更棒

就以上实例,我们可以尝试了解下面相关概念。

  • 你在市场上随机选择了一些 不同品种的芒果(我们称之为 训练样本

  • 把每个芒果的特征信息都写进如下的一个表格中:包括 颜色、大小、形状、 产地 等(我们称之为 特征变量

  • 当然还有一个最重要的信息,就是每一 只芒果你亲自品尝过后的 甜度,你可以把它们标记为 甜和不甜(这称之为 目标变量,这个过程又叫数据标记 )。

  • 你把这些数据输入到一个机器学习 算法中去,然后这个算法就会自动的帮你找到什么特征的芒果会比较甜 (这就得到了机器学习模型

等你下一次到市场买芒果的时候,你只需要把摊位上的 芒果特征信息收集 一下,然后扔进你的 机器学习模型中,它就会自动预测 哪些芒果是甜的。

这个机器学习模型可能比之前经验的规则要更加复杂,挑选甜芒果的准确度 要更高。例如之前挑选 100 个芒果,可能只有 70 个是甜的(70%的准确率, 这就是模型的评估指标 precision),而现在用机器学习模型可能有 90 个是 甜的,准确率达到了 90%。

更加重要的是,你以后每吃一个芒果,都可以把它的数据添加到模型中进行训练,不断迭代升级你的模型,准确率也会越来越高。算法还可以在每次预测错误之后进行自我修正(这就是 增强学习), 更妙的是,你还能用同一个算法来训练不同的模型,例如预测苹果、橙子、 香蕉、葡萄、樱桃、西瓜等等(这就是 迁移学习

总结1:

  • 我们要挑选“甜”的芒果,即预测芒果的“甜度”,这就是 机器学习的目标, “甜”的 芒果叫 正例, “不甜”的芒果叫 负例
  • 金黄色的芒果都是甜的,其实这就是一个 最简单的模型,不过这个模型来源 于经验规则,这个模型是 欠拟合
  • 只尝了一家水果店总结出来的甜芒果的规律到另外一家店就不适用了,这就叫模型的 过 拟合,这是因为机器学习的样本太少,没有找到更 普适的规律
  • 你总结出来的挑选芒果的 if … then … 规则,就是模型的一种表现形式(基于规则的模 型,例如以后会学到的决策树算法结果就是这样的规则)
  • 你采集了大量的芒果的信息并记录成一张表格,这就是机器学习的 训练样本机器学习 算法就是基于这些训练样本来学习找到甜芒果的 规律
  • 训练样本中的芒果的一些信息:例如产地,颜色,大小等,这就叫 特征变量,机器学习 常常提到的 特征工程 就是指 采集这些特征变量的过程。如何 设计和收集 足够多的特征 变量,是决定机器学习预测效果非常重要的因素

总结2:

  • 按照模型挑选了你认为甜的 100 个芒果,结果吃过之后只有 70 个是甜的, 70% 就是 模型预测的 准确度(precision),这是预测模型评估非常重要的一个指标。
  • 算法每次在预测错了之后还能进行 自我修复,这就是机器学习中的 增强学习
  • 如果你已经训练好了一个挑选芒果的模型,然后根据数据稍微微调一下就用它来 挑苹果, 挑西瓜,这就是机器学习中的 迁移学习

接下来,我们通过图片简单体会一下。
机器学习相关概念、分类、要解决的任务
机器学习相关概念、分类、要解决的任务
机器学习相关概念、分类、要解决的任务
机器学习相关概念、分类、要解决的任务

二 机器学习分类

机器学习,核心在“学习”两个字上,机器是如何“学习”的呢?一般来说有三种学习模式:
机器学习相关概念、分类、要解决的任务
监督学习
所谓的监督,简单的理解就是算法在学习过程需要指定目标来进行学习(例如需要知道训练样本中的 每一个芒果是甜的还是不甜)。就好比我们已经知道了题库中每道题目的正确答案,然后对所有这些题进 行学习。当我们学到了解题方法之后,对不在题库中的题目进行解答,最终验证我们的学习效果如何。

监督学习是机器学习中最常见和最重要的一种学习方式。监督学习主要用来解决预测性问题,最常用的 算法有如下 :

  • . K 近邻(K-Nearest Neighbors, KNN)
  • 线性回归(Linear Regression)
  • 逻辑回归(Logistic Regression)
  • 支持向量机 (Support Vector Machine, SVM)
  • 朴素贝叶斯 (Naive Bayes)
  • 决策树(Decision Tree)
  • 随机森林(Random Forests)
  • 神经网络(Neural Network)

非监督学习
这里说的无目标是相对监督学习的有目标来说的,指的是学习 过程中没有目标变量的监督,但并不是说非监督学习是没有目的的乱学。其实不同的非监督学习算法都是 有各自的目的的,例如聚类分析,它的目的就是从数据中去发现结构,找到相似的数据把它们聚为一类。 之所以说聚类是非监督学习,就是因为到底聚多少个类,这个是需要算法自己去探索的。非监督学习就好 比给了你一本书,让你去自学,从中找到一些规律。

非监督学习算法常用于对数据进行探索性分析例如 聚类,降维,寻找关联性 等。另外,监督学习和 非监督学习并非完全独立,有时候我们会把非监督学习的输出作为监督学习算法的输入,往往会产生比较 好的预测效果。常用的非监督学习算法:

  • K 均值聚类(K-Means Clustering)
  • 基于密度的聚类方法(DBSCAN)
  • 主成分分析(Principal Component Analysis , PCA)
  • 自组织映射神经网络(Self-Organizing Map, SOM)
  • 受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)

强化学习
强化学习不同于监督学习和非监督学习。在强化学习中没有原始数据输入让算法来学习。强化学习面 对的是一个不断变化的状态空间,要解决的是一个决策链问题。 其目的是找到在当前状态下的最佳决策是 什么。这里的挑战是,当下的决策好坏当下无法验证和评估,要根据多次决策以后才能知道。就像下棋, 当前的决策(落子)要在五步十步棋之后才能判断是好还是坏。所以强化学习中并没有大量的原始数据输 入,机器需要在 不断变化的环境 中通过大量的 试错学习,再根据某种规则找到产生最佳结果的路径,从 而做出最佳决策。

强化学习最经典成功案例就是 AlphaGo,此外强化学习主要用于:玩游戏、机器人、自动驾驶 等领 域。你可以考虑利用强化学习算法来学玩微信的小游戏“跳一跳”,一开始不需要准备什么数据,就是让 程序不停的玩,每跳一次“死”了就惩罚,“不死”就奖励,用不了多久你的程序就可以做到怎么跳都不 会“死”了。

三 机器学习要解决的任务

机器学习并不是简单的玩数学游戏,它是能真刀真枪的解决很多实际问题的。简单归纳 总结一下,机器学习主要解决六大类问题:

  • 分类问题
  • 聚类问题
  • 回归问题
  • 关联问题
  • 序列问题
  • 异常检测问题

分类问题:
机器学习相关概念、分类、要解决的任务

抽象来看,分类问题就是构造一个分类器(Classifier) ,可以对数据样本的 类别进行预测。分 类器可以理解为一个函数: y=f(x) ,其中 x是自变量, y 是因变量,而且 y 的取值不是数值而是一个 类别标签,当我们知道了 x 的值之后,就可以根据 f(x)来预测 y 的值。分类问题属于监督学习 的范畴。

机器学习相关概念、分类、要解决的任务
机器学习相关概念、分类、要解决的任务
机器学习相关概念、分类、要解决的任务
如下的这些问题都属于分类问题:
⚫ 垃圾邮件识别:判断一封邮件是否是垃圾邮件
⚫ 文本分类:判断一篇文章属于什么类型(例如体育类,财经类,娱乐类…)
⚫ 信用评分:判断申请者的信用好坏决定是否放贷
⚫ 欺诈检测:检测信用卡的刷卡消费是否是欺诈行为
⚫ 图像分类识别:识别图片中的动物是猫还是狗
⚫ 用户流失预测:预测用户下一个月是否会流失
⚫ 营销响应预测:预测用户对营销活动是否会响应
⚫ 广告点击率预估:预测用户对广告是否会点击
⚫ 商品推荐:预测用户对推荐的商品是否有兴趣

聚类问题
机器学习相关概念、分类、要解决的任务

“物以类聚,人以群分”,这就是聚类,它的目的就是要把相似的数据聚在一起。例如通信运营 商可以对手机用户的 通话行为 进行聚类,把 喜欢上网 的聚类一类,喜欢夜间打电话 的聚为另外一 类。你也可以对大量的文章进行聚类,把 相似的文章聚为一类 然后归到同一个文件夹中。聚类问题 属于非监督学习的范畴。

常见的聚类问题有:
• 用户分群:企业对用户的消费行为进行聚类,把用户划分为不同的 人群,然后对用户进行差异化的服务。
• 相似文档归类:对大量的文档进行聚类分析后,把文档分为若干个 不同的类

注意:聚类和分类都有一个“类”字,但是它们有显著的差别:

• 分类问题的“类”就是训练样本的标签,这个标签是训练模型之前 需要事先标记好的,分类算法的目标是建立一个对标签进行预测的 模型;
• 而聚类的“类”,是聚类算法需要对数据进行学习之后才能得到的 结果,在训练模型之前我们是不知道样本的类标签的。

回归问题
机器学习相关概念、分类、要解决的任务
回归问题和分类问题非常像,它们都属于监督学习的范畴。分类问题要构建的是分类器(Classifier), 而回归问题需要构建的就是一个回归器(Regressor)。回归器也是一个函数: y=f(x),其中 x 是自变 量, y是因变量,与分类问题不同的是, y 的取值是数值而不是类别。当知道了 x 的值之后,就可以通 过 f(x)来预测 y 的值
机器学习相关概念、分类、要解决的任务
常见的回归问题有:
◼ 房价预测:根据房子的各种特征来预估房子的价格
◼ 销量预测:根据商品的相关特征来预测商品的销量

关联问题
机器学习相关概念、分类、要解决的任务

关联问题最有名的案例就是啤酒和尿布的故事。 关联规则算法可以从交易型数据中发现频繁关联 出现的 Item(商品),又称为购物篮分析和关联 规则挖掘。关联规则挖掘属于非监督学习的范畴。

常见的关联问题有:
⚫ 商品买了还买:买了 A 商品的人,同时 还有多少比例会购买 B, C, D, E…
⚫ 电影看了还看:看了电影 A 的人,同时 还有多少比例会看电影 B, C, D

序列问题
机器学习相关概念、分类、要解决的任务

序列问题包括 时间序列 的预测,序列型关联 规则(例如先看了速度与激情 1,接下来看速度与激情 2 的可 能性比较大)等。语言模型(哪些词经常可以搭配在一起)也属于序列问题。序列问题既可以 是非监督学习的方法(类似关联规则算法),也可以转换为回归,分类等 监督学习 的问题。

常见的序列问题有:
◼ 用户购物模型预测:根据之前购买的商品序列预测接下来可能会买的商品
◼ 时间序列预测:例如预测股票,预测天气等
◼ 中文分词:判断哪些字组合在一起最可能像一个词语

异常检测问题
机器学习相关概念、分类、要解决的任务

异常检测就是检测样本取值是否显著的偏离常规,从中发现有意义的 孤立点异常值监督学习 和 非监督 学习 都可以应用于异常检测问题。

常见的异常检测问题有:
◼ 信用卡异常消费检测(欺诈检测)
◼ 网络安全检测
◼ 不合格产品检测

欠拟合和过拟合

机器学习相关概念、分类、要解决的任务