机器学习个人总结
线性模型
-
基本形式
个属性描述示例(列向量),其中,x_i是x在第i个属性取值。
向量形式:
或: -
线性判别分析(LDA):二分类
思想:投影到一条直线上,同类样例尽可能近,异类样例尽可能远。投影直线为
两类样本中心投影在直线上均值为:、
两类样本的协方差分别为:、
同类样例尽可能近:协方差尽可能小,即类内散度矩阵尽可能小;
异类样例尽可能远:中心之间距离尽可能远,即类间散度矩阵:尽可能大。
定义"广义瑞利商",越大越好。
由于分子、分母都是的二次多项式,因此解与的长度无关,只与方向有关,那么可令,
则 等价于
即得:
而,方向始终为,可令,那么有:
.
将进行奇异值分解可得。
当两类数据同先验、满足高斯分布且协方差相等时,LDA可达到最优分类。 -
将LDA推广到多分类任务
假定存在N个类,第i类示例数为,所有示例的均值向量为。定义:
全局散度矩阵
重定义,
其中,
为第类数据集,为该类的均值向量。
,使用中任意两个即可解决多分类问题。 -
多分类学习
OvO:产生二分类学习器,在测试阶段,将新样本放入所有的二分类学习器中测试,得出个结果,把预测得最多的类别作为分类结果。()
OvR:产生个二分类学习器,在测试阶段,得出个结果,若仅有一个学习器预测为正类,则对应的类标作为最终分类结果。若有多个学习器预测为正类,则考虑各个分类器的预测置信度,选择置信度最大的类别作为分类标记结果。()
MvM:常用纠错输出码(ECOC)完成正反类构造。海明距离:序列相同位置上不同数据的个数。
欧氏距离:即两点之间的距离, -
类别不平衡问题
分类任务中不同类别的训练样本数目差别很大
欠采样法:去掉一些数目过多的类别的训练样本
过采样法:加入一些正例(假设正例数目太少),常用插值法
阈值移动:采用原始训练集训练。但对于线性分类器而言,时判定为正例,时判定为正例,而表示正例可能性和反例可能性的几率,以0.5为阈值意味着分类器决策规则为: ;然而,当正反例数目不一致时,观测几率为:,由于通常假设训练集是真实样本总体的无偏采样,因此观测几率代表了真实几率。所以,只要分类器的预测几率高于观测几率就判为正例,即决策规则为:,实际实现时令:再同1比较判别类别。