对话系统【Paper阅读】
- 开始学习dialogue system (end to end task-oriented)
- 参考之前的一些学习资料
1. Review of spoken dialogue systems
- 简介:简述了对话系统的架构
-
ASR(Automatic Speech Recognition)
- 将user的语音转化为文本,句子(sequence of words)
- Stochastic approach(HMMs,GMMs)
- N-best recognition(topN 想死的句子,可以re-score)
- Confidence scores
- 将user的语音转化为文本,句子(sequence of words)
-
SLU(Spoken Language Understanding)
- 基于ASR结果获得语句的语义表示
- stored in one or more frames
- frames由slots组成,获取意图和槽位信息
- 框架语义表示的三元组
- action:表示意图识别,如查询
- slot:槽位,如订机票场景下槽位包含(时间、起点、终点)
- value:槽位取值,表示从query中解析获得的内容
-
DM(Dialogue Management)
- 目的是根据SLU的结果给出下一步的response
- 如让user confirm confidence score低于某个阈值的slow-value
- 复杂的做法是可以结合上下文,结合多轮对话的(dialogue turn)的内容来判断和获取
- 目的是根据SLU的结果给出下一步的response
-
NLG(Natural Language Generation)
- 将DM返回的decision转成text format(grammatically and semantically correct)
- 最简单的方法是:template-based,通过组合slot来返回text
- 稍微复杂一些的方法: sentence aggregation
- 为了使输出的文本连贯,需要考虑上下文(如历史对话过程 dialogue history module 中出现的省略词,代词等)。同时处理redundant words。
-
TTS(Text-to-speech synthesis)
- 将Text转化为Speech
- step1,将abbreviation替换掉
- step2,根据语义调整语调(intonation)和语速(speed)
2. POMDP-based statistical spoken dialogue system:a review
- 简介:简述了POMDP相关的模型和系统研究
- 关键词:
- POMDP(partially observable markov decision processed)
- user simulators:可以直接和对话系统交互,且被语料集训练。
- POMDP(partially observable markov decision processed)
-
POMDP
- 关键词
- based on belief state:b(t)
- select an action:a(t)
- receive a reward:r(t)
- transition to state:s(t+1)
- policy:π,表示from belief states to actions
- solving / optimizing the POMDP:选择最优policy,使得当前t时刻的value最大(discount)
- 关键词
-
Belief state representation and monitoring
- 基于POMDP,state被表示成3个factor:
- user’s goal:g(t)
- user utterance/ last input:u(t)
- dialogue history:h(t)
- 基于此可对原公式进行分解 factorisation,但现有的对话系统仍然很复杂,可结合2个新的方法
- the N-best approach including pruning and recombination strategies
- belief state通过最可行的n个状态list估计
- the factored Bayesian Network approach
- the N-best approach including pruning and recombination strategies
- 基于POMDP,state被表示成3个factor:
Policy representation and RL
3. 插入一波MDP的学习/强化学习
- 强化学习
- https://www.zhihu.com/search?type=content&q=mdp
- 策略:
- 定义:指状态到动作的映射,指给定状态s 时,动作集上的一个分布,用条件概率分布给出的。
- 表示每个状态点下不同action的概率,放在一起是一套策略。由于每个状态点存在不同的可能性,因此基于某状态点的每个策略(实例)的收益是可计算的,但单个策略的收益是依概率变化的,可以计算期望。
- 如下图,策略π表示基于每个状态点的action概率都是0.5
- 回报率的计算是基于下一时间点的,即当前(S(t),A(t))完成后达到S(t+1)所带来的reward。