Tacotron2: NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS知识点说明
Tacotron2: NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS
文章于2018年2月发表
Tacotron2与Tacotron1对比,,模型基本框架相似,主要改变为:
- Encoder: 3层包含512个5X1滤波器的卷积层,一个双向512单元的LSTM层,来代替tacotron1中的CBHG模块,简化了encoder模块;
- 使用location sensitive attention改进之前的attention机制,以有效减少漏音发生的概率,因为TTS中每次alignment的位置,应该是在上次alignment的附近,而不是从memory的所有单元中寻找。
- 新增Stop Token,即增加了语音结束位置的预测 损失,来判断decoder是否结束预测输出,以缓解语音合成过程中出现尾音的问题,同时有助于加快收敛;分类问题,概率阈值是个问题。
- Post-net:使用5层卷积层来代替CBHG模块;
- Vocoder:改进的WaveNet。
Tacotron1 | Tacotron2 | |
---|---|---|
Input | character | character |
encoder | Prenet + CBHG | Conv + BiLSTM |
attention | soft alignment | location sensitive attention(减少漏音问题) |
decoder | residual GRUs | LSTM with zoneout |
stop token | no | yes(减少尾音问题) |
target | linear spectrogram | mel spectrogram |
vocoder | Griffin-Lim | WaveNet |
loss | l1 | l2 |