机器之心40题

1. 名义变量:nominal variable定类,只是用来分类

有序变量:ordinalvariable一种在类别上有些顺序的变量

2. 确定性算法表明在不同运行中,算法输出并不会改变。PC A可以得到一样的输出,但K-means不可以。

 

4. 梯度下降算法GD,每一次迭代需要使用整个训练数据集。

         随机梯度下降算法SGD,每次迭代使用的批量是数据集中的随机样本组成的。

 

5. 增加随机森林中树的深度有可能会造成模型过拟合;

         增加随机森林中树的数量可能会造成模型欠拟合

         学习速率不能影响随机森林的拟合程度,不是超参数。

 

6. 如果是连续型的目标变量,该问题可以被划分到回归问题,采用均方误差作为损失函数的度量标准。

 

7. **函数sigmoid函数取值范围【0,1】,tanh函数取值范围【-1.1】,ReLU**函数范围【0,inf】

 

8. 信息熵的公式:机器之心40题机器之心40题式中对数一般取2为底。

 

9. 正在处理类属特征,并且没有查看分类变量再测试集中的分布。现在将one hot encoding(ONE)应用于类属特征中,那么应用ONE会面临的困难:分类变量中所有的类别没有全部出现在测试集中,不能进行ONE编码类别;类别的频率分布在训练集和测试集是不同的,使用ONE是需要注意。

 

10. word2vec算法:其中为词嵌入而设计的最优模型Skipgram模型(总-分),输入当前word,预测该word周围的多个词。CBOW模型(分-总)两者相反

 

12.对数损失度量函数不能取负值。损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。 机器学习中常见的损失函数:

a)      log对数损失函数(逻辑回归),标准形式:L(Y,P(Y|X))=−logP(Y|X)

机器之心40题机器之心40题

b)      平方损失函数(最小二乘法, Ordinary Least Squares )

标准形式如下:L(Y,f(X))=(Y−f(X))^2

c)      指数损失函数(Adaboost)

机器之心40题机器之心40题

在给定n个样本的情况下,Adaboost的损失函数为:

机器之心40题机器之心40题

d)     Hinge损失函数(SVM)

Hinge 损失函数的标准形式

L(y)=max(0,1−yy~),  y=±1

e)      0-1损失函数  

机器之心40题机器之心40题

f)       绝对值损失函数

机器之心40题机器之心40题

机器之心40题机器之心40题

参数越多,模型越复杂,而越复杂的模型越容易过拟合。过拟合就是说模型在训练数据上的效果远远好于在测试集上的性能。此时可以考虑正则化,通过设置正则项前面的hyper parameter,来权衡损失函数和正则项,减小参数规模,达到模型简化的目的,从而使模型具有更好的泛化能力。

 

13. 统计学假设测试中,1类错误是错误地拒绝了正确的假设(即假正类错误),2类错误是错误地接受了错误的假设(即假负类错误)

 

14. NLP项目中文本预处理的步骤:

         词干提取(stemming)剥离后缀;移去停止词与语境不相关的词(are/is/am);目标标准化…………

中文文本挖掘预处理:数据收集(文本语料库下载/爬虫);除去数据中非文本部分;处理中文编码问题(unicode);中文分词(python下结巴分词,亦可同时帮其加入一些人名和地名);移除停用词(常用1208个);特征处理(向量化,TF_IDF,标准化);建立分析模型(利用权重数据,建立分类聚类模型)。

 

15. 降维算法有PCA,LDA,t-SNE,Autoencoder。 其中t-SNE 算法考虑最近邻点而减少数据维度,使用该方法之后可以再最近邻空间得到解释,而PCA及其他的方法不行(都是基于构造矩阵,做特征值分解,得到特征向量)。Autoencoder自编码网络是无监督神经网络,可以通过这个网络先经过”encoder”网络将高维数据投影到低维空间,再经过”decoder”网络反向将低维数据还原到高维空间。

 

16. 两个特征之间有高度正相关或负相关,则是多元共线特征。

17.存在多元共线特征,下一步可以移除一个特征,或者使用带罚项的回归模型(ridge/lasso regression),正则化算法(L1和L2)

18.给线性回归模型的特征空间添加一个特征之后,不论特征是重要还是不重要,R-square通常会增加

19.特征之间的相关性系数不会因为特征加或减去一个数而改变。相关系数公式:

机器之心40题

不论特征如何加减,最终的r是不变的。

20.准确度并不适合于衡量不平衡类别问题;精确率和召回率适合于衡量不平衡类别问题

 

21.在集成学习中,模型集成了弱学习者的预测,所以这些模型的集成将比使用单个模型预测效果更好。集成学习模型中的弱学习者问题的特定部分。所以他们通常不会过拟合,这也就意味着弱学习者通常拥有低方差和高偏差。

 

22. K折交叉验证:大 K值意味着对过高估计真实预期误差(训练的折数将更接近于整个验证集样本数)拥有更小的偏差和更多的运行时间(并随着越来越接近极限情况:留一交叉验证)。我们同样在选择 K 值时需要考虑 K折准确度和方差间的均衡。

 

26.SVD一般是用来诊断两个场的相关关系的,而PCA是用来提取一个场的主要信息的(即主分量)。两者在具体的实现方法上也有不同,SVD是通过矩阵奇异值分解的方法分解两个场的协方差矩阵的(两个场的维数不同,不对称),将一个比较复杂的矩阵用更小更简单的几个子矩阵的相乘来表示,而PCA是通过Jacobi方法分解一个场的协方差矩阵(T'*T). PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。当数据有一个 0均值向量时,PCA有与 SVD一样的投射,否则在使用 SVD之前,你必须将数据均值归 0

27.已知两个正负样本的特征向量(x1,y1,(x2,y2),求SVM分类器的分类面方程:先求两点连线的斜率(y2-y1/(x2-x1),两个斜率相乘等于-1;再求两点的中心点。