机器学习基础知识

机器学习基础知识
1、 误差
学习器实际预测输出与样本的真实输出之间的差异称为“误差”
有经验误差(也成训练误差)和泛化误差。
我们实际需要的是泛化误差较小的学习器。

2、 过拟合与欠拟合
过拟合:学习能力太过强大,把训练样本中的特殊特性当作一般特性导致泛化性能下降。
欠拟合:学习能力低下,不能很好的预测输出。

3、 评估方法
测试集于训练集选取尽可能互斥。
如何选取训练集与测试集,有如下几种方法:
1) 留出法:将数据集D划分为两个互斥的集合,一个为训练集S另一个为测试集T,D=S⋃T,S∩T=∅(训练集与测试集的选取通常采用分层抽样的方法,并且单次使用留出法所得到的结果不够稳定可靠,一般要采用多次划分重复进行实验后取平均值作为评估结果,一般2/3—4/5的数据用于训练)
2) 交叉验证法:将数据集D划分为K个大小相似的互斥子集,即D=D1⋃ D2⋃D3⋃…⋃Dk,Di∩Dj=∅(每个子集通过分层采样得到,用k-1个子集进行训练,余下的子集作为测试集,训练k次返回k次结果的均值,这种方法的极限是留一法)
3) 自助法:给定包含m个样本的数据集D,每次随机从中挑选一个样本放入D’中,再将此数据放回D中,然后再进行采样此过程重复m次,我们就得到包含m个样本的数据集D’(样本在m次采样始终不被采到的概率 ,则这部分作为测试集。自助法在数据集较小,难以划分训练集时使用,但是自助法改变了初始数据的分布会带来误差)

4、 调参
对每一个参数选定一个范围和变化步长,例如在[0,0.2]范围内以0.05为步长,则有5个候选值需要我们测试,假定算法有3个参数每个参数有5个候选值则有 个模型需要测试,工作量非常大。)
5、 性能度量
模型的好坏不仅取决于算法和数据还取决于任务需求。
回归任务(连续值预测学习任务称为回归,离散值预测学习任务称为分类)常用的性能度量是“均方误差”:
1) 错误率与精度: (简单公式) (m个样本中有α个分类错误)

精度=1-错误率
2) 查准率、查全率
机器学习基础知识
机器学习基础知识
查全率与查准率是一对矛盾的度量,一般来说其中一个较高时另一个一般较低,只有在数据简单时才会同时较高。
P-R曲线图(P为纵轴,R为横轴作图),若一个学习器的P-R曲线被另一个学习器的P-R曲线完全包住,则可断言后者优于前者。(若有交叉则在具体的查全率与查准率下分析,例如计较平衡点查准率=查全率的值,或者比较两曲线所包围面积的大小。)
3) F1、Fβ、宏查准率等、微查准率等
机器学习基础知识
4) ROC与AUC
ROC:受试者工作特征曲线(纵轴真正例率,横轴假正例率,若一个曲线被另一个曲线完全包住则后者优于前者,若有交叉则比较好的办法则是比较ROC曲线下的面积AUC)
机器学习基础知识