机器学习基本概念

机器学习

  • 概念
    多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

  • 学科定位
    人工智能(Artificial Intelligence, AI)的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

  • * 定义*
    探究和开发一系列算法来如何使计算机不需要通过外部明显的指示,而可以自己通过数据来学习,建模,并且利用建好的模型和新的输入来进行预测的学科。

  • 学习
    针对经验E (experience) 和一系列的任务 T (tasks) 和一定表现的衡量 P,如果随之经验E的积累,针对定义好的任务T可以提高表现P,就说计算机具有学习能力

  • 应用
    语音识别 自动驾驶 语言翻译 计算机视觉 推荐系统 无人机 识别垃圾邮件

深度学习

  • 定义
    深度学习是基于机器学习延伸出来的一个新的领域,由以人大脑结构为启发的神经网络算法为起源加之模型结构深度的增加发展,并伴随大数据和计算能力的提高而产生的一系列新的算法。
    机器学习基本概念
  • 应用
    无人驾驶汽车中的路标识别
    Google Now中的语音识别
    百度识图
    针对图片,自动生成文字的描述

基本知识

1、名词

训练集 测试集 特征值 监督学习非监督学习半监督学习 分类 回归

2、概念学习

概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数

概念定义在实例(instance)集合之上,这个集合表示为X。(X:所有的属性表示,即为所有的影响因素)
目标概念(target concept)为待学习的概念或目标函数, 即为所有因素导致的最后结果,记做c。
c(x)也可叫做y,若为分类问题(两类),可记为 c(x) = 1,c(x) = 0。
x: 每一个实例,一条数据的所有因素
{因素1,因素2,因素3,...,因素n}
X: 样例, 所有实例的集合,即可记为一条数据一行,共n条数据
{因素1,因素2,因素3,...,因素n}
{因素1,因素2,因素3,...,因素n}
{因素1,因素2,因素3,...,因素n}
.
{因素1,因素2,因素3,...,因素n}

学习目标:f: X -> Y

3、数据集

训练集(training set/data) /训练样例(training examples): 用来进行训练,也就是产生模型或者算法的数据集

测试集(testing set/data)/测试样例 (testing examples):用来专门进行测试已经学习好的模型或者算法的数据集

特征向量(features/feature vector):属性的集合,通常用一个向量来表示,附属于一个实例

标记(label): c(x), 实例类别的标记
正例(positive example)
反例(negative example)

4、两大类

分类 (classification): 目标标记为类别型数据(category) (即 离散型)

回归(regression): 目标标记为连续性数值 (continuous numeric value)(即 连续型)

5、监督学习

有监督学习(supervised learning): 训练集有类别标记(class label)

无监督学习(unsupervised learning): 无类别标记(class label)

半监督学习(semi-supervised learning):有类别标记的训练集 + 无标记的训练集

6、机器学习步骤

1 把数据拆分为训练集和测试集
2 用训练集和训练集的特征向量来训练算法
3 用验证集(validation set)调整参数
4 用学习成果在测试集上来评估预测