牛客网面试题
通过某个特征词的缺失与存在的两种情况下,语料中前后信息的增加,衡量某个特征词的重
要性。
4)CHI(Chisquare) 卡方检验法
利用了统计学中的"假设检验"的基本思想:首先假设特征词与类别直接是不相关的
如果利用CHI分布计算出的检验值偏离阈值越大,那么更有信心否定原假设,接受原假设的
备则假设:特征词与类别有着很高的关联度。
5)WLLR(Weighted Log Likelihood Ration)加权对数似然
6)WFO(Weighted Frequency and Odds)加权频率和可能性
6、已知一组数据的协方差矩阵P,下面关于主分量说法错误的是()
主分量分析就是KL变换(❌)
KL变换与PCA变换是不同的概念,PCA的变换矩阵是协方差矩阵,KL变换的变换矩阵可
以有很多种(二阶矩阵、协方差矩阵、总类内离散度矩阵等等)。当KL变换矩阵为协方差
矩阵时,等同于PCA。
7、
产生式模型(Generative Model)与判别式模型(Discrimitive Model)是分类器常遇到的概念,
它们的区别在于:
对于输入x,类别标签y:
产生式模型估计它们的联合概率分布P(x,y)
判别式模型估计条件概率分布P(y|x)
生成式模型
- 判别式分析
- 朴素贝叶斯Native Bayes
- 混合高斯型Gaussians
- K近邻KNN
- 隐马尔科夫模型HMM
- 贝叶斯网络
- sigmoid belief networks
- 马尔科夫随机场Markov random fields
- 深度信念网络DBN
- 隐含狄利克雷分布简称LDA(Latent Dirichlet allocation)
- 多专家模型(the mixture of experts model)
判别式模型
- 线性回归linear regression
-
- 逻辑回归logic regression
- 神经网络NN
- 支持向量机SVM
- 高斯过程Gaussian process
- 条件随机场CRF
- CART(Classification and regression tree)
- Boosting
8、
答案是4