课程概要

1、句法结构：成分句法、依存句法
2、依存语法
3、 Transition-based依存句法分析
4、神经网络的依存句法分析

一、句法结构：成分句法、依存句法

为什么我们要在这个领域引入神经网络？
因为在Transition-based依存句法分析中，我们面临一些问题：特征稀疏，很多特征只出现很少几次，导致我们会花费95%的时间在特征计算上。所以我们希望使用一个更稠密的，更可比的特征表示。
从实践的结果来看，这样模型的效果也是很好的（Chen and Manning 2014，为下图红色的部分）
分布的表征
我们使用了d维的稠密向量来代表每一个单词，相似的单词会有更近的向量。同时词性和依存关系也用稠密的向量来表示，向量之间更近的距离也表示语义上的一些相近。比如NNS（名词复数）接近于NN（名词单数）
基于他们在buffer（存储区）和stack（栈）的位置来抽取token，将他们转换成为向量表征，并合并起来。
模型结构
一层输入是连接一起来的向量，一层隐层，一层输出。损失函数是交叉熵。
关于**函数的介绍：下面有几种常见的**函数
tanh就是sigmoid在规模上和位置上的变形产生的，输出是对0对称，在深度学习中表现的很好。

ReLU是目前最流行的**函数
进一步拓展
这个思想被后来的研究者进一步发扬光大，特别是google
- 更大、更深的神经网络，更好的超参
- 束搜索（beam search）
- 基于决策序列的条件随机场（CRF）