机器学习日志7
Laplace smoothing
前面学习过的朴素贝叶斯方法是在我们已有的邮件和单词数据的基础上提出来的,但是如果我们遇到一个邮件中出现了以前从未出现过的单词,那么朴素贝叶斯方法将不再使用,这是我们就要用到今天将要讲到的Laplace smoothing方法,回顾我们以前学过的方法,第j个单词在一封邮件中出现的概率为:
在有字典中不存在单词出现的情况下,这个概率会是0,所以我们利用Laplace smoothing方法,这这时需要在分子上加1,表示我们看到了这个单词,在分母上加k(k是字典长度,包含新的单词),通过这种方法我们便可以得到φj的取值,类似的还可以得到其他两个参数的取值:
另外两个参数:
SVM
在开始之前我们需要做一些假设,类似以前的二项分类问题,但是现在我们利用y∊{-1,1}来代替{0,1}标签,并且使用w和b代替我们以前的向量????便可得到:
hw,b=g(wTx+b)
在这里,w充当了[????1,????2,…,????d]T的作用,而b代表截距????0;
Functional and geometric margins
对于样本(x(i), y(i))定义Functional margins如下:
γˆ(i)= y(i)(wT x(i) + b)
如果 y(i)=1,那么我们为了使Functional margins更大(或者更有说服性)我们就会期望(wT x(i) + b)是一个更大的正数,相反的如果y(i)=-1,那么我们就会期望(wT x(i) + b)是一个跟小的负数,这样才会使边距更大,从而获得更好的分类效果;
但是应用这种方法存在一个缺陷,就是当我们改变w和b的参数时,虽然可以使边距的数值变大,但是实际上并没有改变原来的决策边界,举个例子,原方程为wx + b = 0, 现在两边同乘10,即10wx + 10b = 0 ,我们令 w’ = 10w , b’ =10b 那么 w’x +b’ = 0 ,与wx + b = 0,所描述的是同一个超平面;
在一个训练样集S = {(x(i),y(i));i = 1,…,n}中,它的functional margin表示为 γˆ,
γ ˆ= min γˆ(i)
下面我们将讨论Geometric margins:
通过(w,b)确定的决策边界已知, w/||w||代表单位向量 ,A的向量表示为x(i)所以点B的向量表示为:
x(i) − γ(i)•(w/||w||)
由于B是在超平面上的,即 wT x + b = 0,所以可以得到:
于是可以得到A的Geometric margins--------γ(i)为:
刚刚只是介绍了正因素的边界距离推广到所有正因素和负因素他的距离表示为:
可以注意到如果||w||=1那么Functional and geometric margins相等,不同于Functional margins,当我们改变Geometric margins的w和b的参数时,例如改成2w和2bGeometric margins的数值是不变的,也正是因为值不变
我们可以对w任意缩放而不改变边距的数值大小。比如我们通过缩放w和b可以让||w||=1或者|w1| = 5, or |w1 +b|+|w2| = 2.
在训练机S = {(x(i),y(i));i = 1,…,n}中,它的geometric margin表示为 γ,求法和functional margins类似: