机器学习分类、标注、回归问题|15mins 入门 | 《统计学习方法》学习笔记（八）

一、分类问题

定义：在监督学习中，当输出变量Y去有限个离散值时，预测问题便成为分类问题。这是，输入变量X可以是离散的，也可以是连续的。

分类器（classifier）：监督学习从数据中学习一个分类模型或分类决策函数

分类（classification）：分类器对新的输入进行输出的预测

类（class）：可能的输出。分类的类别为两个时，为二类分类问题，多个时，为多类分类问题

分类问题过程：图中 $(x_1,y_1),(x_2,y_2),...,(x_N,y_N)$ 是训练数据集，学习系统由训练数据学习一个分类器 $P(Y|X)$ 或 $Y=f(X)$ ；分类系统通过学到的分类器，对新的输入实例 $x_{N+1}$ 进行分类，即预测其输出的类标记为 $y_{N+1}$ 。

机器学习分类、标注、回归问题|15mins 入门 | 《统计学习方法》学习笔记（八）

评价分类性能的指标：分类精确率（accuracy），即对于给定的测试数据集，分类器正确分类的样本数与总样本数之比。也就是损失函数是0-1损失时测试数据集上的准确率。

二类分类问题常用评价指标：精确率（precision）与召回率（recall）。

用于分类的统计学习方法：k近邻法、感知机、朴素贝叶斯法、决策树、决策列表、逻辑斯蒂回归模型、支持向量机、提升方法、贝叶斯网络、神经网络、winnow等。

二、标注问题

定义：标注问题是分类问题的一个推广，又是更复杂的结构预测问题（structure prediction）的简单形式。

形式：标注问题的输入是一个观测序列，输出是一个标记序列或状态序列。

目标：学习一个模型，使它能够对观测序列给出的标记序列作为预测。注意，可能的标注个数是有限的，但其组合所成的标记序列的个数是依序列长度呈指数增长的。

过程：分为学习和标注两个过程。首先给定一个训练数据集
$T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$
这里， $x_i=(x_i^{(1)},x_i^{(2)},...,x_i^{(n)})^T,i=1, 2,...,N$ ，是输入观测序列， $y_i=(y_i^{(1)},y_i^{(2)},...,y_i^{(n)})^T$ 是相应的输出标记序列，n是序列的长度，对不同样本可以有不同的值。学习系统基于训练数据集健一个模型，表示为条件概率分布：
$P(Y^{(1)},Y^{(2)},...,Y^{(n)}|X^{(1)},X^{(2)},...,X^{(n)})$
这里，每一个 $X^{(i)}(i=1,2,...,n)$ 取值为所有可能的观测，每一个 $Y^{(i)}(i=1,2,...,n)$ 取值为所有可能的标记，一般 $n<<N$ 。标注系统按照学习得到的条件概率分布模型，对新的输入观测序列找到相应的输出标记序列。具体地，对一个观测序列 $x_{N+1}=(x_{N+1}^{(1)},x_{N+1}^{(2)},...,x_{N+1}^{(n)})^T$ 找到使条件概率 $P((y_{N+1}^{(1)},y_{N+1}^{(2)},...,y_{N+1}^{(n)})^T|(x_{N+1}^{(1)},x_{N+1}^{(2)},...,x_{N+1}^{(n)}))^T$ 最大的标记序列 $y_{N+1}=(y_{N+1}^{(1)},y_{N+1}^{(2)},...,y_{N+1}^{(n)})^T$

机器学习分类、标注、回归问题|15mins 入门 | 《统计学习方法》学习笔记（八）
评价指标：标注准确率、精确率和召回率

标注的统计学习方法：隐马尔科夫模型、条件随机场

三、回归问题

作用：回归用于预测输入变量（自变量）和输出变量（因变量）之间的关系，特别是当输入变量的值发生变化时，输出变量的值随之发生的变化。

回归模型：表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合：学则一条函数曲线使其很好地拟合已知数据且很好地预测未知数据。

过程：分为学习和预测。首先给定一个训练数据集：
$T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$
这里， $x_i \in R^n$ 是输入， $y\in R$ 是对应的输出， $i=1,2,...,N$ 。学习系统基于训练数据构建一个模型，即函数 $Y=f(X)$ ；对新的输入 $x_{N+1}$ ，预测系统根据学习的模型 $Y=f(X)$ 确定相应的输出 $y_{N+1}$ 。
机器学习分类、标注、回归问题|15mins 入门 | 《统计学习方法》学习笔记（八）
分类：

按照输入变量的个数，分为一元回归和多元回归
按照输入变量和输出变量之间关系的类型及模型的类型，分为线性回归和非线性回归。

评价指标：平方损失函数，在此情况下，回归问题可以由著名的最小二乘法（least squares）求解

机器学习分类、标注、回归问题|15mins 入门 | 《统计学习方法》学习笔记（八）

一、分类问题

二、 标注问题

三、 回归问题

相关推荐

二、标注问题

三、回归问题