机器学习面试题库：141-150题（15day）

机器学习面试题库：141-150题（15day）
线性分类器有三大类：感知器准则函数、SVM、Fisher准则，而贝叶斯分类器不是线性分类器。
感知器准则函数：代价函数J=-(W*X+w0)，分类的准则是最小化代价函数。感知器是神经网络（NN）的基础，网上有很多介绍。
SVM：支持向量机也是很经典的算法，优化目标是最大化间隔（margin），又称最大间隔分类器，是一种典型的线性分类器。（使用核函数可解决非线性问题）
Fisher准则：更广泛的称呼是线性判别分析（LDA），将所有样本投影到一条远点出发的直线，使得同类样本距离尽可能小，不同类样本距离尽可能大，具体为最大化“广义瑞利商”。
贝叶斯分类器：一种基于统计方法的分类器，要求先了解样本的分布特点（高斯、指数等），所以使用起来限制很多。在满足一些特定条件下，其优化目标与线性分类器有相同结构（同方差高斯分布等），其余条件下不是线性分类。
机器学习面试题库：141-150题（15day）
最小最大损失准则：考虑p(wi)变化的条件下，是风险最小；
最小误判概率准则：就是判断p(w1|x)和p(w2|x)哪个大，x为特征向量，w1和w2为两分类，根据贝叶斯公式，需要用到先验知识；
最小损失准则：在最小误判概率准则的基础之上，还要求出p(w1|x)和p(w2|x)的期望损失，因为最小误判概率准则需要先验概率，所以最小损失准则也需要先验概率。
N-P判决：即限定一类错误率条件下使另一类错误率为最小的两类别决策，即在一类错误率固定的条件下，求另一类错误率的极小值的问题，直接计算p(x|w1)和p(x|w2)的比值，不需要用到贝叶斯公式。
机器学习面试题库：141-150题（15day）

SVM分类面即是最大分割平面，
求斜率：-1/[(y1-y2)/(x1-x2)]=-1/[(3-(-1))/(2-0)]=-1/2
求中点：((x1+x2)/2,(y1+y2)/2)=((0+2)/2, (-1 + 3)/2)=(1, 1)
最后表达式：x+2y=3。

机器学习面试题库：141-150题（15day）
正则化项即罚函数，该项对模型向量进行“惩罚”，从而避免单纯最小二乘问题的过拟合问题。训练的目的是最小化目标函数，则C越小，意味着惩罚越小，分类间隔也就越小，分类错误也就越少。
L1范数是指向量中各个元素绝对值之和，用于特征选择。
L2范数是指向量各元素的平方和然后求平方根，用于防止过拟合，提升模型的泛化能力，提高泛化能力，则不可能获得更准确的结果。
机器学习面试题库：141-150题（15day）

机器学习面试题库：141-150题（15day）

纯度越高，表示不确定越少，更少的信息就可以区分。

bias太高说明模型太简单了, 数据维数不够, 无法准确预测数据, 所以, 升维吧 !

解决多重共线性，可以使用相关矩阵去去除相关性高于75%的变量 (有主观成分)。也可以VIF，如果VIF值<=4说明相关性不是很高，VIF值>=10说明相关性较高。
我们也可以用：岭回归和lasso回归的带有惩罚正则项的方法。
我们也可以在一些变量上加随机噪声，使得变量之间变得不同，但是这个方法要小心使用，可能会影响预测效果。

机器学习面试题库：141-150题（15day）

机器学习面试题库：141-150题（15day）

相关推荐