Machine Learning Course-CS 156 笔记 5

Lecture 5 : Training versus Testing

视频地址:https://www.youtube.com/watch?v=SEYAnnLazMU


测试与训练

用期末考试举例。
测试:

P[|EinEout|>ϵ]2e2ϵ2N

训练:
P[|EinEout|>ϵ]2Me2ϵ2N

M 从哪里来?
不好的事件 Bm 是 ’ |EinEout|>ϵ

联合边界:

P[B1B2BM]P[B1]+P[B2]++P[BM]

可以在 M 上进行改进吗?
不好的事件非常重叠。
Machine Learning Course-CS 156 笔记 5
蓝线和绿线是两个分界面。
ΔEout:+11ΔEin:|Ein(h1)Eout(h1)||Ein(h2)Eout(h2)|

替代 M
用输入点的有限集合来替代所有的输入空间,并且计算二分法(假设)的数量

二分法:微型假设
一个假设 h:X{1,+1}
一个二分 h:{x1,x2,,xN}{1,+1}

假设集 |H| 的数量无限的。
二分集合 |H(x1,x2,,xN)| 的数量最多为 2N

The growth function
计算了 N点上最多的二分集

mH(N)=maxx1,,xNX|H(x1,,xN)|

growth function满足 : mH(N)2N

  • mH(3)=8
  • mH(4)=14 (当+1点在对角线上时无法分割)

examples

1.射线
Machine Learning Course-CS 156 笔记 5

Hh:R{1,+1}h(x)=sign(xa)mH(N)=N+1

2.区间
Machine Learning Course-CS 156 笔记 5

Hh:R{1,+1}mH(N)=CN+12+1=12N2+12N+1

3.凸集
Machine Learning Course-CS 156 笔记 5

Hh:R2{1,+1}mH(N)=2N

根据下图理解:
Machine Learning Course-CS 156 笔记 5
N 个点被凸集“shatter”了

mH(N) 替代 M时会怎样?
只需证明 mH(N) 是多项式


break point

定义: 如果没有大小为 k 的数据集可以被 H ‘shatter’,那么 k就是 H 的一个break point

对于2维的感知机,break point是 k=4

继续前面的例子:

  • 对于射线 mH(N)=N+1 , break point 是 k=2
  • 对于区间 mH(N)=12N2+12N+1 , break point 是 k=3
  • 对于凸集 mH(N)=2N , break point 是 k=

结论

没有break point mH(N)=2N
有break point mH(N)N 的多项式