【QA学习】综述学习
分类
输入是否考虑历史信息
- 单轮对话
- 多轮对话
构建方法 - 1.检索式方法
- 首先构建一个用于检索的数据库,将用户的输入视为对该索引系统的查询,从中选择一个回复。具体的来说,当用户在线输入语句后,系统首先初步检索,初步找回一批候选回复,然后再根据对话匹配模型进行重排序得到最佳回复。
- 2.生成式方法
- 而生成式的方法则源自机器翻译,收集大规模的语料,然后再建立一种端到端的模型,来学习输入和回复之间的对应模式。逐个生成词语
- 3.检索和生成相结合的方法
- 将两种结合起来
单轮检索模型
- 核心:构建查询-回复之间的匹配模型,分为语义表示和语义融合。
- 语义表示:将查询和回复映射到语义向量
- 语义融合:将查询语义向量和回复语义向量融合过程建模
以语义表示为中心
模型
-
Based in CNN
-
1.基于CNN,将查询和回复的词向量输入,进行CNN,卷积,池化得到表示向量,再利用余弦相似度计算输入和回复的匹配度。
-
2.基于CNN,得到查询和回复的词向量输入之后,再使用一个MLP计算一个匹配分数
-
Based in RNN
-
Bi-LSTM计算句子表示
-
3.基于RNN+CNN+ATT
- 1.QA-LSTM:查询和回复分别输入Bi-LSTM,再经过pooling之后得到两者的表示
- 2.QA-LSTM-CNN:Bi-LSTM +CNN得到向量表示
- 3 CNN+LSTM+pooing
- 4.Bi-LSTM+pooling+attention
-
Based in CNN+ATT
- ABCNN :CNN得到向量表示之后,再使用Attention基于一个句子表示来得到另一个句子表示。
-
Based in RNN+ATT+AutoEncoder
-
DRCNN
-
包含多层的RNN+ATT,每层RNN的输入都是前一层的所有输出的并集,。整合所有层的输出到,相当于所有的层都加入到损失函数中,可以缓解梯度消失的问题。采用拼接的方式将所有的输出整合到一起,但是这样维度会一直增加,所以加入了一个自编码器,得到固定维度的输入,然后传入到下一层。
-
以语义融合为中心
- 使用深度学习的方法,对检索和回复之间语义融合的过程记性建模
- CNN:
- 经过多此卷积和池化,得到Q和R的向量表示,然后输入到MLP中,得到匹配分数
从在语义表示和融合的具体应用来看:
(1)深度学习在单轮检索对话中的语义表示应
用主要基于卷积神经网络、循环神经网络和注意力
机制。其中,卷积神经网络的层级结构具有较好的
特征选取能力,可以并行计算,运行速度快,但无
法捕捉长距离依赖关系;循环神经网络能够捕捉长
距离依赖关系,更适合序列建模,但特征提取能力
稍弱。注意力机制则可与卷积神经网络、循环神经
网络相结合,对关键信息进行筛选,提升语义的表
达性能。
(2)单轮对话检索方法的深度语义融合最早基
于深度神经网络,后来提出的模型包括卷积神经网
络、循环神经网络和递归神经网络。卷积神经网络
直接基于匹配矩阵提取句子级别匹配特征;循环神
经网络的匹配模型则有多种匹配方式,其中递归匹
配的方式较符合序列匹配思路,被多个研究采用
面向多轮对话
-
和单轮对话相似,多轮对话同样也是遵循着,检索-匹配-重排序的过程
-
多数研究着重于匹配的角度,少数基于重排序
-
与单轮模型最大的区别是:多轮对话系统需要整合当前的查询和历史对话信息作为输入,目标是选择一个既与查询相关,有符合语境的语句作为回复。
-
Based in RNN
-
不缺分历史信息和匹配,将两者拼接起来作为输入,首先使用TF-IDF查找到相似度最高的候选语句,再进行RNN将句子转换成向量表示,计算匹配分数。
分析比较
从框架层面看,以表示为中心的多轮检索对话
模型,在语义表示计算过程与回复独立,会丢失一
些特征。以融合为中心的多轮检索对话模型能够提
取和保留上下文中对匹配回复有用的信息,较前者
匹配效果更好,但是算法更复杂、计算量更大。
从深度学习技术的具体应用来看:
(1)多轮检索对话中的深度学习语义表示模
型用到循环神经网络、卷积神经网络、注意力机制。
与单轮对话不同,多轮检索对话需要对历史对话话
语和查询的组合方式建模,其组合方式可以分为:
a)直接拼接为词序列:由于不同历史对话与查询
的相关性不同,直接拼接会引入噪音;b)合并为
话语序列:将历史对话和查询视作话语序列,这中
方法也降低了查询对回复的影响;c)根据历史对
话对查询进行扩展:这种方法复杂度较高,很难穷
举所有的对话历史选择可能性,而仅扩展有限的查
询组合提升性能有限;d)基于注意力机制将查询
与对话历史话语逐一组合:该方法能够弥补前面方
法的不足,根据对话历史话语与查询的相关性,计
算对话上下文的语义表示,减少噪音影响。
(2)随着研究的深入,多轮检索对话中的语
义融合计算越来越复杂,使用的深度语义融合模型
包括循环神经网络、卷积神经网络和注意力机制。
其中,循环神经网络可根据上下文话语顺序来计算
匹配度,卷积神经网络则直接根据匹配矩阵提取特
征。近期研究表明,应用自注意力机制的模型达到
了当前最优的匹配性能
[64] 。