第四章 4 、 2 使用语言模型生成句子,专家系统及概率统计学习(二)
基于概率的系统
现在主流的想法:机器学习、深度学习
生成模型:可以生成一些新的数据,主要用联合概率
判别模型:判别,主要用条件概率
朴素贝叶斯算法:文本分类、垃圾有近过滤、情感分析
逻辑回归
CRF模型(Conditional Random Fields):可以模拟序列数据,判断一句话中一个词的词性
HMM:语音识别
LDA:主题模型,文本分析,文本找主题
GMM:高斯混合模型空间上一个点,聚成一个类
监督学习:
监督学习-情感分析:
监督学习经典算法:
SVM:使用核函数不需要吧数据用高位的空间标识操作,简化操作。kernel,本质上映射到一个高维的空间,然后用线性算法。、
RF:分类问题上,相似集成学习,多个模型一起来决策
- 无监督学习
无监督学习下只能对数据更多的分析:把数据映射到低纬度的空间观察特性,聚类
降维:PCA,ICA
降维->聚类分析
无监督学习经典算法:
K-means:聚类算法
PCA:比如我的特征有10维度,我想映射到3维空间看。根据协方差矩阵降维。
ICA:降维的方法和PCA不一样,所以使用算法的时候要深入理解算法的侧重点。
MF:矩阵分解,推荐系统
LDA / LSA:LDA是LSA高级版本:分析出一个文本的主题
生成模型:比如二分类器分类猫狗,他会记住猫狗的特征,然后输出猫狗的概率
判别模型:他会记住猫狗之间的区别从而去分类
- 建模步骤:
1、搜集准备数据
2、数据清洗,很重要,影响结果
3、特征工程:表示成特征矩阵,类似于提取对象的属性,很重要。需要经验向想象力
4:建模:选择搭建机器学习模型,很容易。
改进:
end-to-end learning :端到端学习,去掉了特征工程,让机器自己学习,在图像上应用多,不需要人去提取大量的特征。比如:Seq2Seq。图像上效果好,NLP上看情况。