机器之心40题

1. 名义变量：nominal variable定类，只是用来分类

有序变量：ordinalvariable一种在类别上有些顺序的变量

2. 确定性算法表明在不同运行中，算法输出并不会改变。PC A可以得到一样的输出，但K-means不可以。

4. 梯度下降算法GD，每一次迭代需要使用整个训练数据集。

随机梯度下降算法SGD，每次迭代使用的批量是数据集中的随机样本组成的。

5. 增加随机森林中树的深度有可能会造成模型过拟合；

增加随机森林中树的数量可能会造成模型欠拟合

学习速率不能影响随机森林的拟合程度，不是超参数。

6. 如果是连续型的目标变量，该问题可以被划分到回归问题，采用均方误差作为损失函数的度量标准。

7. **函数sigmoid函数取值范围【0，1】，tanh函数取值范围【-1.1】，ReLU**函数范围【0，inf】

8. 信息熵的公式：机器之心40题式中对数一般取2为底。

9. 正在处理类属特征，并且没有查看分类变量再测试集中的分布。现在将one hot encoding（ONE）应用于类属特征中，那么应用ONE会面临的困难：分类变量中所有的类别没有全部出现在测试集中，不能进行ONE编码类别；类别的频率分布在训练集和测试集是不同的，使用ONE是需要注意。

10. word2vec算法：其中为词嵌入而设计的最优模型Skipgram模型（总-分），输入当前word,预测该word周围的多个词。CBOW模型（分-总）两者相反

12.对数损失度量函数不能取负值。损失函数（loss function）是用来估量你模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。机器学习中常见的损失函数：

a) log对数损失函数（逻辑回归），标准形式：L(Y,P(Y|X))=−logP(Y|X)

机器之心40题

b) 平方损失函数（最小二乘法, Ordinary Least Squares ）

标准形式如下：L(Y,f(X))=(Y−f(X))^2

c) 指数损失函数（Adaboost）

在给定n个样本的情况下，Adaboost的损失函数为：

机器之心40题

d) Hinge损失函数（SVM）

Hinge 损失函数的标准形式

L(y)=max(0,1−yy~), y=±1

e) 0-1损失函数

f) 绝对值损失函数

参数越多，模型越复杂，而越复杂的模型越容易过拟合。过拟合就是说模型在训练数据上的效果远远好于在测试集上的性能。此时可以考虑正则化，通过设置正则项前面的hyper parameter，来权衡损失函数和正则项，减小参数规模，达到模型简化的目的，从而使模型具有更好的泛化能力。

13. 统计学假设测试中，1类错误是错误地拒绝了正确的假设（即假正类错误），2类错误是错误地接受了错误的假设（即假负类错误）

14. NLP项目中文本预处理的步骤：

词干提取（stemming）剥离后缀；移去停止词与语境不相关的词（are/is/am）；目标标准化…………

中文文本挖掘预处理：数据收集（文本语料库下载/爬虫）；除去数据中非文本部分；处理中文编码问题（unicode）；中文分词（python下结巴分词，亦可同时帮其加入一些人名和地名）；移除停用词（常用1208个）；特征处理（向量化，TF_IDF，标准化）；建立分析模型（利用权重数据，建立分类聚类模型）。

15. 降维算法有PCA，LDA，t-SNE，Autoencoder。其中t-SNE 算法考虑最近邻点而减少数据维度，使用该方法之后可以再最近邻空间得到解释，而PCA及其他的方法不行（都是基于构造矩阵，做特征值分解，得到特征向量）。Autoencoder自编码网络是无监督神经网络，可以通过这个网络先经过”encoder”网络将高维数据投影到低维空间，再经过”decoder”网络反向将低维数据还原到高维空间。

16. 两个特征之间有高度正相关或负相关，则是多元共线特征。

17.存在多元共线特征，下一步可以移除一个特征，或者使用带罚项的回归模型（ridge/lasso regression），正则化算法（L1和L2）

18.给线性回归模型的特征空间添加一个特征之后，不论特征是重要还是不重要，R-square通常会增加

19.特征之间的相关性系数不会因为特征加或减去一个数而改变。相关系数公式：

机器之心40题

不论特征如何加减，最终的r是不变的。

20.准确度并不适合于衡量不平衡类别问题；精确率和召回率适合于衡量不平衡类别问题

21.在集成学习中，模型集成了弱学习者的预测，所以这些模型的集成将比使用单个模型预测效果更好。集成学习模型中的弱学习者问题的特定部分。所以他们通常不会过拟合，这也就意味着弱学习者通常拥有低方差和高偏差。

22. K折交叉验证：大 K值意味着对过高估计真实预期误差（训练的折数将更接近于整个验证集样本数）拥有更小的偏差和更多的运行时间（并随着越来越接近极限情况：留一交叉验证）。我们同样在选择 K 值时需要考虑 K折准确度和方差间的均衡。

26.SVD一般是用来诊断两个场的相关关系的，而PCA是用来提取一个场的主要信息的（即主分量）。两者在具体的实现方法上也有不同，SVD是通过矩阵奇异值分解的方法分解两个场的协方差矩阵的（两个场的维数不同，不对称），将一个比较复杂的矩阵用更小更简单的几个子矩阵的相乘来表示，而PCA是通过Jacobi方法分解一个场的协方差矩阵（T'*T). PCA的实现一般有两种，一种是用特征值分解去实现的，一种是用奇异值分解去实现的。当数据有一个 0均值向量时，PCA有与 SVD一样的投射，否则在使用 SVD之前，你必须将数据均值归 0。

27.已知两个正负样本的特征向量（x1,y1）,(x2,y2)，求SVM分类器的分类面方程：先求两点连线的斜率（y2-y1）/(x2-x1)，两个斜率相乘等于-1；再求两点的中心点。

相关推荐