DLNLP学习笔记05(Speech Recognition: RNN-T模型)
1 RNA (Recurrent Neural Aligner),在CTC的输出端将线性分类器换成RNN,使得每一次token的输出都会参考前一刻输出的信息。
问题:RNA和CTC都是一个输入对应一个输出,不能进行一个输入对应多个输出。例如,th为两个token,但输入可能只有一个(th的发音很短,只有一个音,使得输入的语音为一个输入单位)。
2 RNN Transducer(输入端):输入与输出标记Φ个数一致。
问题:与CTC一样,存在aligment问题。
3 输出端:在CTC的基础上,增加一个RNN的language model。
作用:① 可以将输出端看做独立的language model进行单独训练。② 因为无视标记Φ,所以可以对输出结果进行穷举,解决aligment问题。