斯坦福大学-自然语言处理与深度学习(CS224n) 笔记 第六课 依存句法分析
课程概要
1、句法结构:成分句法、依存句法
2、依存语法
3、 Transition-based依存句法分析
4、神经网络的依存句法分析
一、句法结构:成分句法、依存句法
参考斯坦福大学-自然语言处理入门 笔记 第十三课 统计语言句法分析(prasing)
二、依存语法
参考斯坦福大学-自然语言处理入门 笔记 第十六课 依存句法分析(Dependency Parsing)第一节
三、Transition-based依存句法分析
参考斯坦福大学-自然语言处理入门 笔记 第十六课 依存句法分析(Dependency Parsing)第二节
四、神经网络的依存句法分析
- 为什么我们要在这个领域引入神经网络?
因为在Transition-based依存句法分析中,我们面临一些问题:特征稀疏,很多特征只出现很少几次,导致我们会花费95%的时间在特征计算上。所以我们希望使用一个更稠密的,更可比的特征表示。 - 从实践的结果来看,这样模型的效果也是很好的(Chen and Manning 2014,为下图红色的部分)
- 分布的表征
我们使用了d维的稠密向量来代表每一个单词,相似的单词会有更近的向量。同时词性和依存关系也用稠密的向量来表示,向量之间更近的距离也表示语义上的一些相近。比如NNS(名词复数)接近于NN(名词单数)
基于他们在buffer(存储区)和stack(栈)的位置来抽取token,将他们转换成为向量表征,并合并起来。 - 模型结构
一层输入是连接一起来的向量,一层隐层,一层输出。损失函数是交叉熵。 - 关于**函数的介绍:下面有几种常见的**函数
tanh就是sigmoid在规模上和位置上的变形产生的,输出是对0对称,在深度学习中表现的很好。
ReLU是目前最流行的**函数 - 进一步拓展
这个思想被后来的研究者进一步发扬光大,特别是google- 更大、更深的神经网络,更好的超参
- 束搜索(beam search)
- 基于决策序列的条件随机场(CRF)