【QA学习】综述学习

分类

输入是否考虑历史信息

  • 单轮对话
  • 多轮对话
    构建方法
  • 1.检索式方法
    • 首先构建一个用于检索的数据库,将用户的输入视为对该索引系统的查询,从中选择一个回复。具体的来说,当用户在线输入语句后,系统首先初步检索,初步找回一批候选回复,然后再根据对话匹配模型进行重排序得到最佳回复。
    • 【QA学习】综述学习
  • 2.生成式方法
    • 而生成式的方法则源自机器翻译,收集大规模的语料,然后再建立一种端到端的模型,来学习输入和回复之间的对应模式。逐个生成词语
  • 3.检索和生成相结合的方法
    • 将两种结合起来

单轮检索模型

  • 核心:构建查询-回复之间的匹配模型,分为语义表示和语义融合
  • 语义表示:将查询和回复映射到语义向量
  • 语义融合:将查询语义向量和回复语义向量融合过程建模

以语义表示为中心

模型

  • Based in CNN

  • 1.基于CNN,将查询和回复的词向量输入,进行CNN,卷积,池化得到表示向量,再利用余弦相似度计算输入和回复的匹配度。

  • 2.基于CNN,得到查询和回复的词向量输入之后,再使用一个MLP计算一个匹配分数

  • Based in RNN

  • Bi-LSTM计算句子表示

  • 3.基于RNN+CNN+ATT

    • 1.QA-LSTM:查询和回复分别输入Bi-LSTM,再经过pooling之后得到两者的表示
    • 2.QA-LSTM-CNN:Bi-LSTM +CNN得到向量表示
    • 3 CNN+LSTM+pooing
    • 4.Bi-LSTM+pooling+attention
    • 【QA学习】综述学习
  • Based in CNN+ATT

    • ABCNN :CNN得到向量表示之后,再使用Attention基于一个句子表示来得到另一个句子表示。
  • Based in RNN+ATT+AutoEncoder

  • DRCNN

  • 包含多层的RNN+ATT,每层RNN的输入都是前一层的所有输出的并集,。整合所有层的输出到,相当于所有的层都加入到损失函数中,可以缓解梯度消失的问题。采用拼接的方式将所有的输出整合到一起,但是这样维度会一直增加,所以加入了一个自编码器,得到固定维度的输入,然后传入到下一层。

    • 【QA学习】综述学习

以语义融合为中心

  • 使用深度学习的方法,对检索和回复之间语义融合的过程记性建模
  • 【QA学习】综述学习
  • CNN:
    • 经过多此卷积和池化,得到Q和R的向量表示,然后输入到MLP中,得到匹配分数

从在语义表示和融合的具体应用来看:
(1)深度学习在单轮检索对话中的语义表示应
用主要基于卷积神经网络、循环神经网络和注意力
机制。其中,卷积神经网络的层级结构具有较好的
特征选取能力,可以并行计算,运行速度快,但无
法捕捉长距离依赖关系;循环神经网络能够捕捉长
距离依赖关系,更适合序列建模,但特征提取能力
稍弱。注意力机制则可与卷积神经网络、循环神经
网络相结合,对关键信息进行筛选,提升语义的表
达性能。
(2)单轮对话检索方法的深度语义融合最早基
于深度神经网络,后来提出的模型包括卷积神经网
络、循环神经网络和递归神经网络。卷积神经网络
直接基于匹配矩阵提取句子级别匹配特征;循环神
经网络的匹配模型则有多种匹配方式,其中递归匹
配的方式较符合序列匹配思路,被多个研究采用

面向多轮对话

  • 和单轮对话相似,多轮对话同样也是遵循着,检索-匹配-重排序的过程

  • 多数研究着重于匹配的角度,少数基于重排序

  • 与单轮模型最大的区别是:多轮对话系统需要整合当前的查询和历史对话信息作为输入,目标是选择一个既与查询相关,有符合语境的语句作为回复。

  • Based in RNN

  • 不缺分历史信息和匹配,将两者拼接起来作为输入,首先使用TF-IDF查找到相似度最高的候选语句,再进行RNN将句子转换成向量表示,计算匹配分数。

分析比较
从框架层面看,以表示为中心的多轮检索对话
模型,在语义表示计算过程与回复独立,会丢失一
些特征。以融合为中心的多轮检索对话模型能够提
取和保留上下文中对匹配回复有用的信息,较前者
匹配效果更好,但是算法更复杂、计算量更大。
从深度学习技术的具体应用来看:
(1)多轮检索对话中的深度学习语义表示模
型用到循环神经网络、卷积神经网络、注意力机制。
与单轮对话不同,多轮检索对话需要对历史对话话
语和查询的组合方式建模,其组合方式可以分为:
a)直接拼接为词序列:由于不同历史对话与查询
的相关性不同,直接拼接会引入噪音;b)合并为
话语序列:将历史对话和查询视作话语序列,这中
方法也降低了查询对回复的影响;c)根据历史对
话对查询进行扩展:这种方法复杂度较高,很难穷
举所有的对话历史选择可能性,而仅扩展有限的查
询组合提升性能有限;d)基于注意力机制将查询
与对话历史话语逐一组合:该方法能够弥补前面方
法的不足,根据对话历史话语与查询的相关性,计
算对话上下文的语义表示,减少噪音影响。
(2)随着研究的深入,多轮检索对话中的语
义融合计算越来越复杂,使用的深度语义融合模型
包括循环神经网络、卷积神经网络和注意力机制。
其中,循环神经网络可根据上下文话语顺序来计算
匹配度,卷积神经网络则直接根据匹配矩阵提取特
征。近期研究表明,应用自注意力机制的模型达到
了当前最优的匹配性能
[64] 。