Slot-Gated Modeling for Joint Slot Filling and Intent Prediction论文笔记

文章目录

摘要
方法

Attention-Based RNN Model

Slot Filling
Intent Prediction

Slot-Gated Mechanism
Joint Optimization

实验

论文地址：Slot-Gated Modeling for Joint Slot Filling and Intent Prediction

代码地址：https://github.com/MiuLab/SlotGated-SLU

摘要

基于注意力的递归神经网络模型用于联合意图检测和插槽填充，具有最先进的性能，同时具有独立的注意力权重。考虑到插槽和意图之间存在很强的关系，本文提出了一种插槽门，其重点是学习意图和插槽注意向量之间的关系，以便通过全局优化获得更好的语义框架结果。实验表明，与基准ATIS和Snips数据集上的注意力模型相比，我们提出的模型显著提高了句子级语义框架的准确率，相对注意度模型分别提高了4.2％和1.9％

方法

Slot-Gated Modeling for Joint Slot Filling and Intent Prediction论文笔记

Attention-Based RNN Model

BLSTM输入为一个单词序列 $x=(x_1,...,x_T)$ ，生成一个前向隐藏状态 $fh_i$ 和一个后向隐藏状态 $bh_i$ ，第i步的隐藏状态 $h_i$ 两者的串联组合 $h_i=[fh_i,bh_i]$ 。

Slot Filling

对于插槽填充任务，x是映射一个插槽标签 $y=(y^s_1,...,y^s_T)$ ，对于隐藏船台 $h_i$ ，基于LSTM的隐藏状态计算了一个插槽上下文文向量 $c^s_i$ 作为权重求和，其通过学习注意力权重 $\alpha^s_{i,j}$ 得到：

$c^s_i=\sum^T_{j=1}\alpha^s_{i,j}h_j$

$\alpha^s_{i,j}=\frac{exp(e_{i,j})}{\sum^s_{k=1}exp(e_{i,k})}$

$e_{i,k}=\delta(W^s_{he}h_k)$

这里的 $\delta$ 是**函数。 $W^s_{he}$ 是前馈神经网络的权重矩阵。然后这两部分被用作插槽填充：

$y^s_i = softmax(W^s_{hy}(h_i+c^s_i))$

其中 $y^s_i$ 是第i个单词的插槽填充输出结果， $W^s_{hy}$ 是权重矩阵，这个模型可以从图a中看出。

Intent Prediction

使用BLSTM的最后一个隐藏状态来预测意图：

$y^I = softmax(W^I_{hy}(h_T+c^I))$

Slot-Gated Mechanism

提出的时隙门控模型引入了一个额外的门，该门利用意图上下文向量来建模时隙-意图关系，以提高时隙填充性能。首先插槽上下文向量 $c^s_i$ 和意图上下文向量 $c_I$ （在时间维度上扩充至和slot向量尺寸一致）结合：

$g=\sum v*tanh(c^s_i+W*c^I)$

$g$ 可以被看作一个权重特征。使用 $g$ 去乘 $c^s_i$ ，然后使用softmax预测结果：

$y^s_i = softmax(W^s_{hy}(h_i+c^s_i*g))$

较大的 $g$ 表示时隙上下文向量和意图上下文向量注意输入序列的同一部分，这也推断时隙与 $i$ 之间的相关性。上下文向量更强，更“可靠”地贡献预测结果。

Joint Optimization

为了同时获得插槽填充和意图预测，目标被表述为:

$p(y^s,y^I|x)$

$=p(y^I|x)\prod^T_{t=1}p(y^s_t|x)$

$=p(y^I|x_1,...,s_T)$

$p(y^s,y^I|x)$ 是给定输入字序列的理解结果（插槽填充和意图预测）的条件概率，并对SLU进行最大化。

实验

Slot-Gated Modeling for Joint Slot Filling and Intent Prediction论文笔记

Slot-Gated Modeling for Joint Slot Filling and Intent Prediction论文笔记

文章目录

摘要

方法

Attention-Based RNN Model

Slot Filling

Intent Prediction

Slot-Gated Mechanism

Joint Optimization

实验

相关推荐