斯坦福大学-自然语言处理与深度学习(CS224n) 笔记 第六课 依存句法分析

课程概要

1、句法结构:成分句法、依存句法
2、依存语法
3、 Transition-based依存句法分析
4、神经网络的依存句法分析

一、句法结构:成分句法、依存句法

参考斯坦福大学-自然语言处理入门 笔记 第十三课 统计语言句法分析(prasing)

二、依存语法

参考斯坦福大学-自然语言处理入门 笔记 第十六课 依存句法分析(Dependency Parsing)第一节

三、Transition-based依存句法分析

参考斯坦福大学-自然语言处理入门 笔记 第十六课 依存句法分析(Dependency Parsing)第二节

四、神经网络的依存句法分析

  • 为什么我们要在这个领域引入神经网络?
    因为在Transition-based依存句法分析中,我们面临一些问题:特征稀疏,很多特征只出现很少几次,导致我们会花费95%的时间在特征计算上。所以我们希望使用一个更稠密的,更可比的特征表示。
  • 从实践的结果来看,这样模型的效果也是很好的(Chen and Manning 2014,为下图红色的部分)
    斯坦福大学-自然语言处理与深度学习(CS224n) 笔记 第六课 依存句法分析
  • 分布的表征
    我们使用了d维的稠密向量来代表每一个单词,相似的单词会有更近的向量。同时词性和依存关系也用稠密的向量来表示,向量之间更近的距离也表示语义上的一些相近。比如NNS(名词复数)接近于NN(名词单数)
    基于他们在buffer(存储区)和stack(栈)的位置来抽取token,将他们转换成为向量表征,并合并起来。
    斯坦福大学-自然语言处理与深度学习(CS224n) 笔记 第六课 依存句法分析
  • 模型结构
    一层输入是连接一起来的向量,一层隐层,一层输出。损失函数是交叉熵。
    斯坦福大学-自然语言处理与深度学习(CS224n) 笔记 第六课 依存句法分析
  • 关于**函数的介绍:下面有几种常见的**函数
    tanh就是sigmoid在规模上和位置上的变形产生的,输出是对0对称,在深度学习中表现的很好。
    斯坦福大学-自然语言处理与深度学习(CS224n) 笔记 第六课 依存句法分析
    ReLU是目前最流行的**函数
    斯坦福大学-自然语言处理与深度学习(CS224n) 笔记 第六课 依存句法分析
  • 进一步拓展
    这个思想被后来的研究者进一步发扬光大,特别是google
    • 更大、更深的神经网络,更好的超参
    • 束搜索(beam search)
    • 基于决策序列的条件随机场(CRF)
      斯坦福大学-自然语言处理与深度学习(CS224n) 笔记 第六课 依存句法分析