Enhanced LSTM for Natural Language Inference(ESIM)阅读笔记

模型介绍

Hybrid Neural Inference Models

Enhanced LSTM for Natural Language Inference(ESIM)阅读笔记

可以用BiLSTM编码, 也可以使用Tree-LSTM.
这里只介绍基于BiLSTM的结构.

1. Input Encoding

Enhanced LSTM for Natural Language Inference(ESIM)阅读笔记

输入两句话分别接embeding + BiLSTM

2. Local Inference Modeling

就是一个计算attention的过程
Locality of inference
首先计算两个句子 word 之间的相似度,得到2维的相似度矩阵.

Enhanced LSTM for Natural Language Inference(ESIM)阅读笔记

Local inference collected over sequences
利用前面的词相似矩阵, 进行两句话的 local inference. 用之前得到的相似度矩阵,结合 a,b 两句话,互相生成彼此相似性加权后的句子.attention的常规操作,公式如下

Enhanced LSTM for Natural Language Inference(ESIM)阅读笔记

Enhancement of local inference information
利用减法和element-wise product计算<aˉ,a~><\bar a, \tilde a>之间的差异
然后,将得到的向量进行拼接

Enhanced LSTM for Natural Language Inference(ESIM)阅读笔记

3. Inference Composition

The composition layer
和之前input encoding一样, 将上一步得到的ma,mbm_a, m_b再送入BiLSTM.
但是这里目的不同, 它们用于捕获局部推理信息mam_ambm_b以及它们的上下文,以便进行推理组合。

Pooling
同时使用 MaxPooling 和 AvgPooling 进行池化操作, 最后接一个全连接层+softmax