NLP学习笔记
NLP(Nutural language processing )概述
一、自然语言处理的应用场景:
- 市场调查公司,在线填写问卷。怎么判断出哪些问卷是认真写,哪些是瞎填的?
- 情感分析:判断一个人在什么样的情绪瞎填写的这份问卷
- 文档自动分类:门户网站
二、语料库:
三、NLP的研究模式:
自然语言场景问题
数学算法
算法如何运用到解决问题中
语料训练
相关实际应用
四、学习NLP的困难:
场景的困难:语言的多样性、多变性,歧义性
学习的困难:艰难的数学模型(概率图模型:隐马尔科夫过程HMM,最大熵模型、条件随机场CRF等)
语料的困难:什么是语料?语料有什么用?如何获得语料?
Day 1
形式语言
1.图论
无向图,顶点node和边edge的集合
有向图
连通图:
回路:
树:一个无回路的无向图称为森林,一个无回路的连通无向图成为树.
2.形式语言基础:字符串
字符串\Sigma
包括空串在内的\Sigma上字符串的全体集合记为\Sigma_{*}
字符串的连接
字符串的闭包: V表示字符表\Sigma上的字符串集合 我理解的这里与\Sigma_{*}是一样的,但老师讲的不一样? 老师:V是字符串的集合,它不是字符表,\Sigma是字符表
表示字符串x的长度
3.文法/形式语法
形式语法是一个四元组: