小吴的《机器学习周志华》学习笔记第一章绪论

近一年时间接触到不少机器学习的知识，虽然断断续续学了一些，总感觉还没有入门（只学会了疯狂调包）。因此，最近开始系统学习Machine Learning的经典——西瓜书，为了防止自己偷懒，以及更好的了解书中的知识点，立一个flag，每周写一些学习笔记来供自己日后复习。入门小白，若有错误的地方欢迎大家指出。

第一章绪论

1.1 引言

这本bible被称为西瓜书，不仅是因为它的封面上印着的西瓜????- -||，而是作者以西瓜的好坏为例。作者由一个“清新”的例子引入：
小吴的《机器学习周志华》学习笔记第一章绪论
看完这一段话，我们就能根据很多经验做出预测，例如为什么看到湿的路面、感到和风，就能预测出明天是好天？为什么看到色泽青绿、根蒂卷缩、敲声浑浊就能判断出是好瓜？等等，以上是根据人们经验所得。
那么什么是机器学习？简单来说就是利用经验来改善系统自身的性能（在计算机系统中，“经验”通常以“数据”的形式存在）。机器学习所研究的主要内容就是在计算机上从数据中产生model（学习算法），有了这样的学习算法后，在面临新情况时，我们就能对其进行预测。（概念就说到这，这几年类似的话说了几百次，快说吐了。。）

1.2 基本术语

接下来，说一下ML中许多很常见的术语：
数据集（data set）：收集的数据的集合。
示例（instance）/样本（sample）：数据集中每条关于一个事件或对象的描述。
属性（attribute）/特征（feature）：反映事件或对象在某方面的表现或性质的事项。
属性空间（attribute space）/样本空间（sample space）：属性张成的空间。

我们若把n个不同的属性作为n维空间的不同坐标轴，每一个示例都能在这个n维空间中找到它所对应的点，则每一个点对应一个坐标向量，因此一个示例也被称为一个“特征向量”（feature vector）。

数据集D={x₁,x₂, …x_m}表示的是包含m个示例的数据集，每一个示例由d个属性描述，每一个示例x_i={x_i1,x_i2, …x_id}是d维样本空间X中的一个向量。

学习（learning）/训练（training）：从数据中学得模型的过程
训练数据（training data）：训练过程中使用的数据
训练样本（training sample）：训练数据中的每一个样本
训练集（training set）：训练样本组成的集合。
标签（label）：关于示例结果的信息
样例（example）：拥有标记信息的示例
标记空间（label space）：所有标记的集合，或称输出空间

分类：预测的是离散值
回归：预测的是连续值

聚类：把训练集中的数据分为若干的组，每一个组称为一个簇（cluster）。
学习任务可以根据训练数据有无标签大致分为两种，“监督学习”和“无监督学习”，分类和回归是前者的代表，而聚类是后者的代表。

1.3 假设空间与版本空间

归纳学习：从样例中学习（广义）；从训练数据中学得概念（狭义），因此也称为“概念学习”。概念学习中最基本的是布尔概念学习，即对可以表示为0/1布尔值的目标概念的学习。接下来给出书上的一个例子，假定获得了这样的数据集：小吴的《机器学习周志华》学习笔记第一章绪论
用布尔表达式写出来就是：
好瓜<->(色泽=?)and(根蒂=?)and(敲声=?)
好瓜<->(色泽=*)and(根蒂=蜷缩)and(敲声=浊响)

?代表未确定的值，对训练集学习得目的就是把?确定下来。
*代表通配符，可以取任意值。

我们把学习过程看成一个在所有假设组成的空间中进行搜索的过程，搜索目标是找到与训练集“匹配”的假设。对于上面例子的假设空间为：
小吴的《机器学习周志华》学习笔记第一章绪论
则假设空间规模大小为4* 4* 4+1=65.
要注意的是现实问题中我们面临着很大的假设空间，但学习过程是基于有限的样本训练集进行的，因此可能有多个假设与训练集一致，即存在一个与训练集一致的假设集合，为“版本空间”：小吴的《机器学习周志华》学习笔记第一章绪论

1.4 归纳偏好

这里所提到的偏好，我们可以简单理解为“特征选择”，就是我们要更重视某一个特征才能使得学习结果更加准确，我们给出一个回归学习图示来更加直观的表示：小吴的《机器学习周志华》学习笔记第一章绪论
这张图很明显的表示出对应的学习算法可能偏好图中更平滑的曲线A，而不是崎岖的曲线B。
我们怎么知道更偏好于平滑曲线A，有没有什么一般性的原则来引导算法确立“正确的”偏好呢？这里就要提到“奥卡姆剃刀”。

“奥卡姆剃刀”：若有多个假设与观察一致，则选择最简单的那个。因此我们选择A。

但是！！我们相信A好于B，但会不会出现下面的情况呢？小吴的《机器学习周志华》学习笔记第一章绪论
这种情况完全可能出现，我们用数学推导来证明上面的讨论：
对于二分类问题则有：

最后可以得出：

这里表面总误差居然与学习算法无关（因为最后一项的结果为概率1），那么也就是说无轮学习算法多聪明或者多笨拙，它们所得期望相同！这就是“没有免费的午餐”定理（NFL）。那读者读到这表示，既然一样，那还学个锤子？
但是，NFL的前提是：所有问题出现机会相同、或所有问题同等重要，但是现实情况并不是这样。
所以我们说：在脱离实际意义情况下，空泛地谈论哪种算法好毫无意义，要谈论算法优劣必须针对具体学习问题。在某些问题上表现和的学习算法，在另一些问题上可能不尽如人意，学习算法自身的归纳偏好与问题是否相配，往往会起到决定性作用。
（此话引于https://www.jianshu.com/p/6fdcfb634617，我觉得很有道理）

后面的发展历程和应用现状就略过了，下期发第一章习题或第二章学习笔记！

小吴的《机器学习 周志华》学习笔记 第一章 绪论

小吴的《机器学习 周志华》学习笔记 第一章 绪论

第一章 绪论

1.1 引言

1.2 基本术语

1.3 假设空间与版本空间

1.4 归纳偏好

相关推荐

小吴的《机器学习周志华》学习笔记第一章绪论

小吴的《机器学习周志华》学习笔记第一章绪论

第一章绪论