NLP学习笔记

NLP(Nutural language processing )概述
一、自然语言处理的应用场景:

  1. 市场调查公司,在线填写问卷。怎么判断出哪些问卷是认真写,哪些是瞎填的?
  2. 情感分析:判断一个人在什么样的情绪瞎填写的这份问卷
  3. 文档自动分类:门户网站

二、语料库:

三、NLP的研究模式:
自然语言场景问题
数学算法
算法如何运用到解决问题中
语料训练
相关实际应用

四、学习NLP的困难:
场景的困难:语言的多样性、多变性,歧义性
学习的困难:艰难的数学模型(概率图模型:隐马尔科夫过程HMM,最大熵模型、条件随机场CRF等)
语料的困难:什么是语料?语料有什么用?如何获得语料?

Day 1

形式语言
1.图论
无向图,顶点node和边edge的集合NLP学习笔记
NLP学习笔记
有向图
NLP学习笔记
连通图:
NLP学习笔记
回路:
:一个无回路的无向图称为森林,一个无回路的连通无向图成为树.


2.形式语言基础:字符串

NLP学习笔记
字符串\Sigma
NLP学习笔记
包括空串在内的\Sigma上字符串的全体集合记为\Sigma_{*}
NLP学习笔记
字符串的连接
NLP学习笔记
字符串的闭包: V表示字符表\Sigma上的字符串集合
NLP学习笔记我理解的这里与\Sigma_{*}是一样的,但老师讲的不一样? 老师:V是字符串的集合,它不是字符表,\Sigma是字符表
NLP学习笔记

NLP学习笔记 表示字符串x的长度

3.文法/形式语法
形式语法是一个四元组:
NLP学习笔记