机器学习基础知识

机器学习基础知识
1、误差
学习器实际预测输出与样本的真实输出之间的差异称为“误差”
有经验误差（也成训练误差）和泛化误差。
我们实际需要的是泛化误差较小的学习器。

2、过拟合与欠拟合
过拟合：学习能力太过强大，把训练样本中的特殊特性当作一般特性导致泛化性能下降。
欠拟合：学习能力低下，不能很好的预测输出。

3、评估方法
测试集于训练集选取尽可能互斥。
如何选取训练集与测试集，有如下几种方法：
1）留出法：将数据集D划分为两个互斥的集合，一个为训练集S另一个为测试集T，D=S⋃T，S∩T=∅（训练集与测试集的选取通常采用分层抽样的方法，并且单次使用留出法所得到的结果不够稳定可靠，一般要采用多次划分重复进行实验后取平均值作为评估结果，一般2/3—4/5的数据用于训练）
2）交叉验证法：将数据集D划分为K个大小相似的互斥子集，即D=D1⋃ D2⋃D3⋃…⋃Dk，Di∩Dj=∅（每个子集通过分层采样得到，用k-1个子集进行训练，余下的子集作为测试集，训练k次返回k次结果的均值，这种方法的极限是留一法）
3）自助法：给定包含m个样本的数据集D，每次随机从中挑选一个样本放入D’中，再将此数据放回D中，然后再进行采样此过程重复m次，我们就得到包含m个样本的数据集D’（样本在m次采样始终不被采到的概率，则这部分作为测试集。自助法在数据集较小，难以划分训练集时使用，但是自助法改变了初始数据的分布会带来误差）

4、调参
对每一个参数选定一个范围和变化步长，例如在[0,0.2]范围内以0.05为步长，则有5个候选值需要我们测试，假定算法有3个参数每个参数有5个候选值则有个模型需要测试，工作量非常大。）
5、性能度量
模型的好坏不仅取决于算法和数据还取决于任务需求。
回归任务（连续值预测学习任务称为回归，离散值预测学习任务称为分类）常用的性能度量是“均方误差”：
1）错误率与精度：（简单公式）（m个样本中有α个分类错误）

精度=1-错误率
2）查准率、查全率
机器学习基础知识

查全率与查准率是一对矛盾的度量，一般来说其中一个较高时另一个一般较低，只有在数据简单时才会同时较高。
P-R曲线图（P为纵轴，R为横轴作图），若一个学习器的P-R曲线被另一个学习器的P-R曲线完全包住，则可断言后者优于前者。（若有交叉则在具体的查全率与查准率下分析，例如计较平衡点查准率=查全率的值，或者比较两曲线所包围面积的大小。）
3） F1、Fβ、宏查准率等、微查准率等
机器学习基础知识
4） ROC与AUC
ROC:受试者工作特征曲线（纵轴真正例率，横轴假正例率，若一个曲线被另一个曲线完全包住则后者优于前者，若有交叉则比较好的办法则是比较ROC曲线下的面积AUC）

机器学习基础知识

相关推荐