机器之心40题
1. 名义变量:nominal variable定类,只是用来分类
有序变量:ordinalvariable一种在类别上有些顺序的变量
2. 确定性算法表明在不同运行中,算法输出并不会改变。PC A可以得到一样的输出,但K-means不可以。
4. 梯度下降算法GD,每一次迭代需要使用整个训练数据集。
随机梯度下降算法SGD,每次迭代使用的批量是数据集中的随机样本组成的。
5. 增加随机森林中树的深度有可能会造成模型过拟合;
增加随机森林中树的数量可能会造成模型欠拟合
学习速率不能影响随机森林的拟合程度,不是超参数。
6. 如果是连续型的目标变量,该问题可以被划分到回归问题,采用均方误差作为损失函数的度量标准。
7. **函数sigmoid函数取值范围【0,1】,tanh函数取值范围【-1.1】,ReLU**函数范围【0,inf】
8. 信息熵的公式:式中对数一般取2为底。
9. 正在处理类属特征,并且没有查看分类变量再测试集中的分布。现在将one hot encoding(ONE)应用于类属特征中,那么应用ONE会面临的困难:分类变量中所有的类别没有全部出现在测试集中,不能进行ONE编码类别;类别的频率分布在训练集和测试集是不同的,使用ONE是需要注意。
10. word2vec算法:其中为词嵌入而设计的最优模型Skipgram模型(总-分),输入当前word,预测该word周围的多个词。CBOW模型(分-总)两者相反
12.对数损失度量函数不能取负值。损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。 机器学习中常见的损失函数:
a) log对数损失函数(逻辑回归),标准形式:L(Y,P(Y|X))=−logP(Y|X)
b) 平方损失函数(最小二乘法, Ordinary Least Squares )
标准形式如下:L(Y,f(X))=(Y−f(X))^2
c) 指数损失函数(Adaboost)
在给定n个样本的情况下,Adaboost的损失函数为:
d) Hinge损失函数(SVM)
Hinge 损失函数的标准形式
L(y)=max(0,1−yy~), y=±1
e) 0-1损失函数
参数越多,模型越复杂,而越复杂的模型越容易过拟合。过拟合就是说模型在训练数据上的效果远远好于在测试集上的性能。此时可以考虑正则化,通过设置正则项前面的hyper parameter,来权衡损失函数和正则项,减小参数规模,达到模型简化的目的,从而使模型具有更好的泛化能力。
13. 统计学假设测试中,1类错误是错误地拒绝了正确的假设(即假正类错误),2类错误是错误地接受了错误的假设(即假负类错误)
14. NLP项目中文本预处理的步骤:
词干提取(stemming)剥离后缀;移去停止词与语境不相关的词(are/is/am);目标标准化…………
中文文本挖掘预处理:数据收集(文本语料库下载/爬虫);除去数据中非文本部分;处理中文编码问题(unicode);中文分词(python下结巴分词,亦可同时帮其加入一些人名和地名);移除停用词(常用1208个);特征处理(向量化,TF_IDF,标准化);建立分析模型(利用权重数据,建立分类聚类模型)。
15. 降维算法有PCA,LDA,t-SNE,Autoencoder。 其中t-SNE 算法考虑最近邻点而减少数据维度,使用该方法之后可以再最近邻空间得到解释,而PCA及其他的方法不行(都是基于构造矩阵,做特征值分解,得到特征向量)。Autoencoder自编码网络是无监督神经网络,可以通过这个网络先经过”encoder”网络将高维数据投影到低维空间,再经过”decoder”网络反向将低维数据还原到高维空间。
16. 两个特征之间有高度正相关或负相关,则是多元共线特征。
17.存在多元共线特征,下一步可以移除一个特征,或者使用带罚项的回归模型(ridge/lasso regression),正则化算法(L1和L2)
18.给线性回归模型的特征空间添加一个特征之后,不论特征是重要还是不重要,R-square通常会增加
19.特征之间的相关性系数不会因为特征加或减去一个数而改变。相关系数公式:
不论特征如何加减,最终的r是不变的。
20.准确度并不适合于衡量不平衡类别问题;精确率和召回率适合于衡量不平衡类别问题
21.在集成学习中,模型集成了弱学习者的预测,所以这些模型的集成将比使用单个模型预测效果更好。集成学习模型中的弱学习者问题的特定部分。所以他们通常不会过拟合,这也就意味着弱学习者通常拥有低方差和高偏差。
22. K折交叉验证:大 K值意味着对过高估计真实预期误差(训练的折数将更接近于整个验证集样本数)拥有更小的偏差和更多的运行时间(并随着越来越接近极限情况:留一交叉验证)。我们同样在选择 K 值时需要考虑 K折准确度和方差间的均衡。