[dialog system] 阅读笔记 - 2015__Neural Responding Machine for Short-Text Conversation
Ref
Introduction
- 李航老师团队的成果
- 基于seq2seq + attention 建模
- 贡献了包含440w条多轮对话的语料,数据来自微博
problem
沿用 seq2seq+attention 模型对 post-response pair 建模。由于post-response pair 并是不严格的平行语料,同一个word 在不同的context 中可能具有不同的meanings, 考虑将 context information 加入到经典的seq2seq+attention 模型中作为补充。
model
- 一轮对话
- end2end framework,RNN with GRU
- global scheme: 将 RNN 中的last hidden state
hgT 作为整个句子的全局信息 - local scheme:采用经典的seq2seq+attention, 将 注解
hj 称为局部信息 - 将
hgT 与hj 拼接,作为具有上下文信息的 attention signal - global encode 和 local encode 分开训练
- 最大似然估计
- decode 采用beam search, beam size = 10
- 评估:设计评分规则,人工评测
模型架构图如下
comment
发布了一个对话系统数据集;模型在attention的基础上加入context information 思路可取,但是方法的创新性不足。