Lecture 7:The VC Dimansion

Lecture 7:The VC Dimansion

【参考】https://redstonewill.com/222/
所有截图均来自课程课件

【概括】
VC Dimension的概念就是最大的non-break point。然后,我们得到了Perceptrons在d维度下的VC Dimension是d+1。接着,我们在物理意义上,将VC Dimension与自由度联系起来。最终得出结论VC Dimension不能过大也不能过小。选取合适的值,才能让Eout足够小,使假设空间H具有良好的泛化能力。

7.1 Definition of VC Dimension

N的k-1次方比B(N,k)松弛:
Lecture 7:The VC Dimansion
VC bound及可以转换为:
Lecture 7:The VC Dimansion
这样,不等式只与k和N相关了,一般情况下样本N足够大,所以我们只考虑k值。有如下结论:
Lecture 7:The VC Dimansion

VC Dimension
VC Dimension就是某假设集H能够shatter的最多inputs的个数,即最大完全正确的分类能力。(注意,只要存在一种分布的inputs能够正确分类也满足)。
根据之前break point的定义:假设集不能被shatter任何分布类型的inputs的最少个数。则VC Dimension等于break point的个数减一。
Lecture 7:The VC Dimansion
回顾一下之前介绍的四种例子,它们对应的VC Dimension是多少:
Lecture 7:The VC Dimansion
得出结论:
有限的VC dimension -> 好的hypothesis
Lecture 7:The VC Dimansion

quiz:
Lecture 7:The VC Dimansion
正确答案为4:因为有可能存在另外N个inputs可以被shatter,也有可能没有,不能确定

7.2 VC Dimension of Perceptrons
Lecture 7:The VC Dimansion
Lecture 7:The VC Dimansion
d为Perceptron的维度

7.3 Physical Intuition VC Dimension
VC Dimension代表了假设空间的分类能力,即反映了H的自由度,产生dichotomy的数量,也就等于features的个数,但也不是绝对的。
Lecture 7:The VC Dimansion
M与VC dimension成正比,可以得出以下结论:
Lecture 7:The VC Dimansion
7.4 Interpreting VC Dimension
Lecture 7:The VC Dimansion

VC Bound是比较宽松的,而如何收紧它却不是那么容易,这也是机器学习的一大难题。但是,令人欣慰的一点是,VC Bound基本上对所有模型的宽松程度是基本一致的,所以,不同模型之间还是可以横向比较。从而,VC Bound宽松对机器学习的可行性还是没有太大影响。