机器学习基石-Feasibility of Learning
大纲
Learning is Impossible
No Free Lunch Theory
假设有8个hypothesis,这8个hypothesis在D上,对5个训练样本的分类效果效果都完全正确。但是在另外3个测试数据上,不同的hypothesis表现有好有坏。在已知数据D上,g≈f;但是在D以外的未知数据上,g≈f不一定成立。而机器学习目的,恰恰是希望我们选择的模型能在未知数据上的预测与真实结果是一致的,而不是在已知的数据集D上寻求最佳效果。
这个例子告诉我们,我们想要在D以外的数据中更接近目标函数似乎是做不到的,只能保证对D有很好的分类结果。机器学习的这种特性被称为没有免费午餐(No Free Lunch)定理。NFL定理表明没有一个学习算法可以在任何领域总是产生最准确的学习器。不管采用何种学习算法,至少存在一个目标函数,能够使得随机猜测算法是更好的算法。平常所说的一个学习算法比另一个算法更“优越”,效果更好,只是针对特定的问题,特定的先验信息,数据的分布,训练样本的数目,代价或奖励函数等。从这个例子来看,NFL说明了无法保证一个机器学习算法在D以外的数据集上一定能分类或预测正确,除非加上一些假设条件,我们以后会介绍。
Probability to the Rescue
从上一节得出的结论是:在训练集D以外的样本上,机器学习的模型是很难,似乎做不到正确预测或分类的。那是否有一些工具或者方法能够对未知的目标函数f做一些推论,让我们的机器学习模型能够变得有用呢?
一个瓶子里面装有很多绿球和黄球,我们能否知道黄球的比例,答案是否定的。但是我们可以通过统计学的方法来推断黄球的比例。我们可以假设黄球的比例是
Hoeffding不等式告诉我们,当抽样数目越多时,
这时候,我们可以用
Connection to Learning
我们把机器学习问题与上面那个罐子取球问题建立联系,对于一个固定的假设来说,
- 假设与目标函数的接近的可能性,可以类比为罐子中黄球的比例;
- 机器学习问题的输入空间的x可以类比为罐子中的球,黄球代表假设
h(x) 与目标函数f(x) 不等,绿色代表假设h(x) 与目标函数f(x) 相等。 - 从罐子中抽取N个球类比于机器学习问题的训练集
D{(xn,yn)} ,两者都是随机抽样,并且两种抽样样本和总体都是独立同分布的
所以当N足够大时,从训练集中
因此这就是我们为什么在采样数据上得到一个假设,就可以推到全局。因为两者的错误率是PAC的,前者小了,后者也小了。
接下来我们引入两个概念
-
Ein(h) :在采样数据中,h(x)≠y 的概率 -
Eout(h) :在所有样本中h(x)≠f(x) 的概率
我们也可以写出数学形式
对于固定的假设,当数据足够大时,
注意,对于一个固定的
Connection to Real Learning
在真正的学习中,我们往往面临多个选择,也就是说我们有很多个
如果有一个罐子中抽出来全是绿色的球,是否代表这个罐子对应的假设一定是好的?下面看一个抛硬币的例子
150个同学抛硬币,问至少有一个同学连续5次都是正面朝上的概率
可见这是一个大概率事件,但其实硬币的正面朝上的概率是
对于一个假设
但在很多
假设有假设空间有M个假设m,那么Bad Sample发生的上界是
当
如果我们通过我们的演算法选取yi个
但是如果