机器学习分类、标注、回归问题|15mins 入门 | 《统计学习方法》学习笔记(八)

一、分类问题

定义:在监督学习中,当输出变量Y去有限个离散值时,预测问题便成为分类问题。这是,输入变量X可以是离散的,也可以是连续的。

分类器(classifier):监督学习从数据中学习一个分类模型或分类决策函数

分类(classification):分类器对新的输入进行输出的预测

类(class):可能的输出。分类的类别为两个时,为二类分类问题,多个时,为多类分类问题

分类问题过程:图中(x1,y1),(x2,y2),...,(xN,yN)(x_1,y_1),(x_2,y_2),...,(x_N,y_N)是训练数据集,学习系统由训练数据学习一个分类器P(YX)P(Y|X)Y=f(X)Y=f(X);分类系统通过学到的分类器,对新的输入实例xN+1x_{N+1}进行分类,即预测其输出的类标记为yN+1y_{N+1}

机器学习分类、标注、回归问题|15mins 入门 | 《统计学习方法》学习笔记(八)

评价分类性能的指标:分类精确率(accuracy),即对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。也就是损失函数是0-1损失时测试数据集上的准确率。

二类分类问题常用评价指标:精确率(precision)与召回率(recall)。

用于分类的统计学习方法:k近邻法、感知机、朴素贝叶斯法、决策树、决策列表、逻辑斯蒂回归模型、支持向量机、提升方法、贝叶斯网络、神经网络、winnow等。

二、 标注问题

定义:标注问题是分类问题的一个推广,又是更复杂的结构预测问题(structure prediction)的简单形式。

形式:标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。

目标:学习一个模型,使它能够对观测序列给出的标记序列作为预测。注意,可能的标注个数是有限的,但其组合所成的标记序列的个数是依序列长度呈指数增长的。

过程:分为学习和标注两个过程。首先给定一个训练数据集
T={(x1,y1),(x2,y2),...,(xN,yN)} T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}
这里,xi=(xi(1),xi(2),...,xi(n))T,i=1,2,...,Nx_i=(x_i^{(1)},x_i^{(2)},...,x_i^{(n)})^T,i=1, 2,...,N,是输入观测序列,yi=(yi(1),yi(2),...,yi(n))Ty_i=(y_i^{(1)},y_i^{(2)},...,y_i^{(n)})^T是相应的输出标记序列,n是序列的长度,对不同样本可以有不同的值。学习系统基于训练数据集健一个模型,表示为条件概率分布:
P(Y(1),Y(2),...,Y(n)X(1),X(2),...,X(n)) P(Y^{(1)},Y^{(2)},...,Y^{(n)}|X^{(1)},X^{(2)},...,X^{(n)})
这里,每一个X(i)(i=1,2,...,n)X^{(i)}(i=1,2,...,n)取值为所有可能的观测,每一个Y(i)(i=1,2,...,n)Y^{(i)}(i=1,2,...,n)取值为所有可能的标记,一般n<<Nn<<N。标注系统按照学习得到的条件概率分布模型,对新的输入观测序列找到相应的输出标记序列。具体地,对一个观测序列xN+1=(xN+1(1),xN+1(2),...,xN+1(n))Tx_{N+1}=(x_{N+1}^{(1)},x_{N+1}^{(2)},...,x_{N+1}^{(n)})^T找到使条件概率P((yN+1(1),yN+1(2),...,yN+1(n))T(xN+1(1),xN+1(2),...,xN+1(n)))TP((y_{N+1}^{(1)},y_{N+1}^{(2)},...,y_{N+1}^{(n)})^T|(x_{N+1}^{(1)},x_{N+1}^{(2)},...,x_{N+1}^{(n)}))^T最大的标记序列yN+1=(yN+1(1),yN+1(2),...,yN+1(n))Ty_{N+1}=(y_{N+1}^{(1)},y_{N+1}^{(2)},...,y_{N+1}^{(n)})^T

机器学习分类、标注、回归问题|15mins 入门 | 《统计学习方法》学习笔记(八)
评价指标:标注准确率、精确率和召回率

标注的统计学习方法:隐马尔科夫模型、条件随机场

三、 回归问题

作用:回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。

回归模型:表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合:学则一条函数曲线使其很好地拟合已知数据且很好地预测未知数据。

过程:分为学习和预测。首先给定一个训练数据集:
T={(x1,y1),(x2,y2),...,(xN,yN)} T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}
这里,xiRnx_i \in R^n是输入,yRy\in R是对应的输出,i=1,2,...,Ni=1,2,...,N。学习系统基于训练数据构建一个模型,即函数Y=f(X)Y=f(X);对新的输入xN+1x_{N+1},预测系统根据学习的模型Y=f(X)Y=f(X)确定相应的输出yN+1y_{N+1}
机器学习分类、标注、回归问题|15mins 入门 | 《统计学习方法》学习笔记(八)
分类:

  • 按照输入变量的个数,分为一元回归和多元回归
  • 按照输入变量和输出变量之间关系的类型及模型的类型,分为线性回归和非线性回归。

评价指标:平方损失函数,在此情况下,回归问题可以由著名的最小二乘法(least squares)求解