Slot-Gated Modeling for Joint Slot Filling and Intent Prediction论文笔记

论文地址:Slot-Gated Modeling for Joint Slot Filling and Intent Prediction

代码地址:https://github.com/MiuLab/SlotGated-SLU

摘要

基于注意力的递归神经网络模型用于联合意图检测和插槽填充,具有最先进的性能,同时具有独立的注意力权重。考虑到插槽和意图之间存在很强的关系,本文提出了一种插槽门,其重点是学习意图和插槽注意向量之间的关系,以便通过全局优化获得更好的语义框架结果。实验表明,与基准ATIS和Snips数据集上的注意力模型相比,我们提出的模型显著提高了句子级语义框架的准确率,相对注意度模型分别提高了4.2%和1.9%

方法

Slot-Gated Modeling for Joint Slot Filling and Intent Prediction论文笔记

Attention-Based RNN Model

​ BLSTM输入为一个单词序列x=(x1,...,xT)x=(x_1,...,x_T),生成一个前向隐藏状态fhifh_i和一个后向隐藏状态bhibh_i,第i步的隐藏状态hih_i两者的串联组合hi=[fhi,bhi]h_i=[fh_i,bh_i]

Slot Filling

对于插槽填充任务,x是映射一个插槽标签y=(y1s,...,yTs)y=(y^s_1,...,y^s_T),对于隐藏船台hih_i,基于LSTM的隐藏状态计算了一个插槽上下文文向量cisc^s_i作为权重求和,其通过学习注意力权重αi,js\alpha^s_{i,j}得到:

cis=j=1Tαi,jshjc^s_i=\sum^T_{j=1}\alpha^s_{i,j}h_j

αi,js=exp(ei,j)k=1sexp(ei,k)\alpha^s_{i,j}=\frac{exp(e_{i,j})}{\sum^s_{k=1}exp(e_{i,k})}

ei,k=δ(Wheshk)e_{i,k}=\delta(W^s_{he}h_k)

这里的δ\delta是**函数。WhesW^s_{he}是前馈神经网络的权重矩阵。然后这两部分被用作插槽填充:

yis=softmax(Whys(hi+cis))y^s_i = softmax(W^s_{hy}(h_i+c^s_i))

其中yisy^s_i是第i个单词的插槽填充输出结果,WhysW^s_{hy}是权重矩阵,这个模型可以从图a中看出。

Intent Prediction

使用BLSTM的最后一个隐藏状态来预测意图:

yI=softmax(WhyI(hT+cI))y^I = softmax(W^I_{hy}(h_T+c^I))

Slot-Gated Mechanism

提出的时隙门控模型引入了一个额外的门,该门利用意图上下文向量来建模时隙-意图关系,以提高时隙填充性能。首先插槽上下文向量cisc^s_i和意图上下文向量cIc_I(在时间维度上扩充至和slot向量尺寸一致)结合:

g=vtanh(cis+WcI)g=\sum v*tanh(c^s_i+W*c^I)

gg可以被看作一个权重特征。使用gg去乘cisc^s_i,然后使用softmax预测结果:

yis=softmax(Whys(hi+cisg))y^s_i = softmax(W^s_{hy}(h_i+c^s_i*g))

较大的gg表示时隙上下文向量和意图上下文向量注意输入序列的同一部分,这也推断时隙与ii之间的相关性。上下文向量更强,更“可靠”地贡献预测结果。

Joint Optimization

为了同时获得插槽填充和意图预测,目标被表述为:

p(ys,yIx)p(y^s,y^I|x)

=p(yIx)t=1Tp(ytsx)=p(y^I|x)\prod^T_{t=1}p(y^s_t|x)

=p(yIx1,...,sT)=p(y^I|x_1,...,s_T)

p(ys,yIx)p(y^s,y^I|x)是给定输入字序列的理解结果(插槽填充和意图预测)的条件概率,并对SLU进行最大化。

实验

Slot-Gated Modeling for Joint Slot Filling and Intent Prediction论文笔记