2.1线性分类-part1

分类

目标:给定数据数据 x,为其分配一个离散的类标签Ck这里k=1,...,K
将输入空间分为不同的区域。

如何表示二值类标签

类型标签不再是实数,而是离散集。
两类:t{0,1}
t=1表示类C1,t=0表示类C2

当类型标签数量大于2时,类如何表示

常用:one-hot 编码,是长度为K的向量,除了位为1外,其他位都为0
例如:给定五类,{C1,C2,...C5},C2可以表示为以下形式

t=(0,1,0,0,0)T

广义线性模型

想法:仍然使用上一章回归中用到的线性模型

y(xn,w)=wTΦ(xn)

但是y(xn,w) R
y(xn,w)=0.71623时,属于哪一类
使用映射函数f将线性模型映射到离散的类型标签
广义线性模型为
y(xn,w)=f(wTΦ(xn))

**函数:f(.)
链接函数:f1(.)

推理和决策

辨别函数

找到一个辨别函数f(x)直接将输入映射到类标签

生成模型

1、使用贝叶斯理论推断后验分布p(Ck|x),需要考虑先验分布p(Ck)p(X|Ck)
也可以对联合分布p(X,Ck)建模
2、使用决策论对x分配类
例子:

辨别模型(discriminative model)

辨别模型是确定一个函数,这个函数能直接将输入向量X,映射到K类别中的一类,表示为Ck
1、直接计算p(Ck|X)
2、使用决策理论(decision theory)为每一个新的X分配一个类型标签

判别函数

两类

先来考虑类型有两类的情况(K=2
建一个关于输入x的线性函数

y(x)=wTx+w0

y(x)>0时,x属于C1否则属于C2
决策边界y(x)=0是D维度输入空间的(D-1)维超平面
w正交于决策平面上的任意向量
证明:令xAxB是决策平面上的两点,则
0=y(xA)y(xB)=wT(xAxB)

原点到超平面的距离为
2.1线性分类-part1
为了让概念更加经凑,给输入空间添加一个额外的维度x0=1
接着定义w~=(w0,w)x~=(w0,x)
y(x)=w~Tx~

决策平面现在为D+1维输入空间的,D维超平面。

多类

当类型多余2的时候
能否组合K-1个 one-versus-the-rest分类器
2.1线性分类-part1
能否组合K(K-1)个one-versus-one个分类器
2.1线性分类-part1
正确的方法:
使用K个线性函数

yk(x)=wkT+wk0

输入x属于Ckyk(x)>yj(x)对于任何jk
决策平面为
yk(x)=yj(x)

2.1线性分类-part1

最小二乘

在第一章里面使用最小二乘解决回归问题,分类问题能不能使用这个方法呢,答案是可以的。
给定输入数据x属于K类中的一类Ck
使用one-hot编码
判别函数为

y(x)=W~Tx~

对于一个新输入的x,它的类型由值最大的y(x)决定。

如何求W~

给定训练集{xn,t}其中t是one-hot编码。
定义矩阵T其中第n行对应tnT
误差和可以写为

ED(W~)=12tr{(X~W~T)T(X~W~T)}


W~=(X~TX~)1X~TT

时候误差取到最小值
2.1线性分类-part1
上图中绿线是逻辑回归的决策平面,紫线是最小二乘线性回归的决策平面,可以看到二小二乘的决策平面容易受到离群点扰动。
为什么会这样呢?
这是因为最小二乘训练的时候每一个训练数据对决策平面都具有相同的影响,而逻辑回归通过sigmoid**函数降低了离群点对决策平面的影响。