小吴的《机器学习 周志华》学习笔记 第一章 绪论

小吴的《机器学习 周志华》学习笔记 第一章 绪论

近一年时间接触到不少机器学习的知识,虽然断断续续学了一些,总感觉还没有入门(只学会了疯狂调包)。因此,最近开始系统学习Machine Learning的经典——西瓜书,为了防止自己偷懒,以及更好的了解书中的知识点,立一个flag,每周写一些学习笔记来供自己日后复习。入门小白,若有错误的地方欢迎大家指出。

第一章 绪论

1.1 引言

这本bible被称为西瓜书,不仅是因为它的封面上印着的西瓜????- -||,而是作者以西瓜的好坏为例。作者由一个“清新”的例子引入:
小吴的《机器学习 周志华》学习笔记 第一章 绪论
看完这一段话,我们就能根据很多经验做出预测,例如为什么看到湿的路面、感到和风,就能预测出明天是好天?为什么看到色泽青绿、根蒂卷缩、敲声浑浊就能判断出是好瓜?等等,以上是根据人们经验所得。
那么什么是机器学习?简单来说就是利用经验来改善系统自身的性能(在计算机系统中,“经验”通常以“数据”的形式存在)。机器学习所研究的主要内容就是在计算机上从数据中产生model(学习算法),有了这样的学习算法后,在面临新情况时,我们就能对其进行预测。(概念就说到这,这几年类似的话说了几百次,快说吐了。。)

1.2 基本术语

接下来,说一下ML中许多很常见的术语:
数据集(data set):收集的数据的集合。
示例(instance)/样本(sample):数据集中每条关于一个事件或对象的描述。
属性(attribute)/特征(feature):反映事件或对象在某方面的表现或性质的事项。
属性空间(attribute space)/样本空间(sample space):属性张成的空间。

我们若把n个不同的属性作为n维空间的不同坐标轴,每一个示例都能在这个n维空间中找到它所对应的点,则每一个点对应一个坐标向量,因此一个示例也被称为一个“特征向量”(feature vector)。

数据集D={x1,x2, …xm}表示的是包含m个示例的数据集,每一个示例由d个属性描述,每一个示例xi={xi1,xi2, …xid}是d维样本空间X中的一个向量。

学习(learning)/训练(training):从数据中学得模型的过程
训练数据(training data):训练过程中使用的数据
训练样本(training sample):训练数据中的每一个样本
训练集(training set):训练样本组成的集合。
标签(label):关于示例结果的信息
样例(example):拥有标记信息的示例
标记空间(label space):所有标记的集合,或称输出空间

分类:预测的是离散值
回归:预测的是连续值

聚类:把训练集中的数据分为若干的组,每一个组称为一个簇(cluster)。
学习任务可以根据训练数据有无标签大致分为两种,“监督学习”和“无监督学习”,分类和回归是前者的代表,而聚类是后者的代表。

1.3 假设空间与版本空间

归纳学习:从样例中学习(广义);从训练数据中学得概念(狭义),因此也称为“概念学习”。概念学习中最基本的是布尔概念学习,即对可以表示为0/1布尔值的目标概念的学习。接下来给出书上的一个例子,假定获得了这样的数据集:小吴的《机器学习 周志华》学习笔记 第一章 绪论
用布尔表达式写出来就是:
好瓜<->(色泽=?)and(根蒂=?)and(敲声=?)
好瓜<->(色泽=*)and(根蒂=蜷缩)and(敲声=浊响)

?代表未确定的值,对训练集学习得目的就是把?确定下来。
*代表通配符,可以取任意值。

我们把学习过程看成一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”的假设。对于上面例子的假设空间为:
小吴的《机器学习 周志华》学习笔记 第一章 绪论
则假设空间规模大小为4* 4* 4+1=65.
要注意的是现实问题中我们面临着很大的假设空间,但学习过程是基于有限的样本训练集进行的,因此可能有多个假设与训练集一致,即存在一个与训练集一致的假设集合,为“版本空间”:小吴的《机器学习 周志华》学习笔记 第一章 绪论

1.4 归纳偏好

这里所提到的偏好,我们可以简单理解为“特征选择”,就是我们要更重视某一个特征才能使得学习结果更加准确,我们给出一个回归学习图示来更加直观的表示:小吴的《机器学习 周志华》学习笔记 第一章 绪论
这张图很明显的表示出对应的学习算法可能偏好图中更平滑的曲线A,而不是崎岖的曲线B。
我们怎么知道更偏好于平滑曲线A,有没有什么一般性的原则来引导算法确立“正确的”偏好呢?这里就要提到“奥卡姆剃刀”。

“奥卡姆剃刀”:若有多个假设与观察一致,则选择最简单的那个。因此我们选择A。

但是!!我们相信A好于B,但会不会出现下面的情况呢?小吴的《机器学习 周志华》学习笔记 第一章 绪论
这种情况完全可能出现,我们用数学推导来证明上面的讨论:小吴的《机器学习 周志华》学习笔记 第一章 绪论
对于二分类问题则有:
小吴的《机器学习 周志华》学习笔记 第一章 绪论
最后可以得出:
小吴的《机器学习 周志华》学习笔记 第一章 绪论
这里表面总误差居然与学习算法无关(因为最后一项的结果为概率1),那么也就是说无轮学习算法多聪明或者多笨拙,它们所得期望相同!这就是“没有免费的午餐”定理(NFL)。那读者读到这表示,既然一样,那还学个锤子?
但是,NFL的前提是:所有问题出现机会相同、或所有问题同等重要,但是现实情况并不是这样。
所以我们说:在脱离实际意义情况下,空泛地谈论哪种算法好毫无意义,要谈论算法优劣必须针对具体学习问题。在某些问题上表现和的学习算法,在另一些问题上可能不尽如人意,学习算法自身的归纳偏好与问题是否相配,往往会起到决定性作用。
(此话引于https://www.jianshu.com/p/6fdcfb634617,我觉得很有道理)

后面的发展历程和应用现状就略过了,下期发第一章习题或第二章学习笔记!