机器学习的基本概念

机器学习的基本概念

1、什么是人工智能?

  • 人工智能,artificial intelligence,简称 AI。

    出发点(目标)是希望打造出一种方法让计算机(或机器)像人类一样可以思考,推理等行为;让计算机能够做出像人类一样智能化的行为。


  • 人工智能常用的领域:(核心是机器学习)

    推理(reasoning);
    机器人(robotics);
    学习(learning);
    知识(knowledge);
    数据挖掘(DM);
    自然语言处理(NLP);
    视觉(vision)。


2、什么是机器学习?

  • 机器学习,machine learning,简称 ML。

    定义:使用经验(experience)去改进性能(performance)的一种计算方法

    经验(experience):数据驱动(data-driven task)的经验,即从数据中得到的规律。一般结合统计、概率论、优化理论来让计算机学习数据中的经验。与之相关的计算机科学(computer science,CS)领域:学习算法(learning algorithm);复杂度分析(analysis of complexity);收敛理论保证(theoretical guarantees)。


  • 机器学习的例子:

    task:让计算机去认识什么是三角形。
    data:提供大量的三角形实例。
    feature:三角形的边,角等数据。

    特征工程(feature engineering and selection,FE):从数据的一系列属性中进行,特征提取(feature extraction);选取与目标相关的特征进行一系列处理。


  • 机器学习常用的领域

    分类(classification):给定一个事物判定分到某个目录类别,结果必定是离散的。(比如是狗还是猫的分类任务、推送的内容是属于娱乐还是科技还是体育的分类任务);

    回归(regression):输入一个数据,预测事情的变化结果。结果是连续的,往往得到一条回归曲线。(如预测一天的气温、股价、经济增长);

    排序(ranking):根据某种标准将给定的条目集合排序。(如搜索引擎百度,输入关键词,得到排好序的网页结果);

    聚类(clustering):物以类聚。对一堆数据进行分析,按照相似类别分成几个组区域(如图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程;Google新闻按照内容结构的不同分成财经,娱乐,体育等不同的标签,这就是一种聚类。);

    降维(dimensionality reduction):采用某种映射方法,寻找低维的数据去代表高维,保留最主要的有用信息。(如图像的像素点怎么让学习器利用);

    参考网址:http://www.cnblogs.com/cs-lcy/p/6900918.html


3、机器学习的定义术语

  • 术语:

    example:样本,例子。

    features:特征,关联属性,常表示为向量 vector。

    label:标签,分类中标签为离散值;回归中标签的取值连续。

    data:数据;划分为训练数据、测试数据等。


  • 机器学习的数据种类

    有监督学习:计算机在有标签的数据学习后,能预测数据结果的学习过程。

    无监督学习:计算机在没有标签的数据学习后,能获取有用数据的学习过程。

    半监督学习:有两个样本集,一个有标签,一个没有标签。综合利用有类标的样本和没有类标的样本来生成合适的分类函数。

    强化学习:数据没有标签,但可以通过某种方法知道是离正确答案越近还是越远(即奖惩函数)。

    参考网址: https://zhuanlan.zhihu.com/p/26304729


4、什么是学习问题?

  • formalize the learning problems

    机器学习的基本概念

  • 最终学到: gf

    机器学习的基本概念
  • 在这篇博客之前我写过一篇关于 NLP 的博客笔记,很形象的说明了机器学习的套路,博客地址点 这里

5、为什么机器可以学习?

  • ML的可行性:霍夫丁不等式
  • 机器学习最基本的理论保障,相当重要的不等式!


机器学习的基本概念


  • 机器学习的算法

    经验风险最小化:(empirical risk minimization,ERM);样本上求解。

    结构风险最小化:(structural risk minimization,SRM);加正则项防止过拟合。


欠拟合:(under-fitting);模型不能拟合样本。

过拟合:(over-fitting);模型拟合样本很好,但是推广能力差。

机器学习的基本概念


  • 机器学习 vs 数据挖掘

ML:从经验数据中找一个函数。
DM:从大数据中找到有用的数据属性。