统计机器学习【1】- 入门机器学习(二)
声明:该文章为作者整理和简略的,非原创,是多方资料的整合,为方便所以标注的原创,有错别字欢迎指正
常见的机器学习的三大分类:
分类问题、 标注问题、回归问题
一、分类问题
在监督学习中,当输出变量有有限个离散变量值时,预测问题就成了分类问题。输入变量 可以是离散的,也可以是连续的,,监督学习从数据中学习一个分类模型或分类决定函数,称为分类器(classifier)。
评价分类性能指标一般是分类准确率(accuracy),定义为:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。
对于二分类问题常用的评价指标是精确率与召回率。通常以关注的类为正类,其他类为负类,分类器在测试集上的预测或正确或不正确。4种情况出现的总数分别记作:
精确率定义为
召回率定义为
此外,还有值,是精确率和召回率的调和均值,即
精确率和召回率都高时,值也会高。
二、标注问题
标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。标注问题的目的在于学习一个模型,使它能够对观测序列给出标记作为预测。
三、回归问题
分类:
(1)输入变量个数:
- 一元回归
- 多元回归
(2)模型类型: - 线性回归
- 非线性回归
最常用的损失函数:平方损失函数
参考文献:
【1】统计学习方法-李航