Tacotron2: NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS知识点说明

Tacotron2: NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS

文章于2018年2月发表

Tacotron2: NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS知识点说明

Tacotron2与Tacotron1对比,,模型基本框架相似,主要改变为:

  1. Encoder: 3层包含512个5X1滤波器的卷积层,一个双向512单元的LSTM层,来代替tacotron1中的CBHG模块,简化了encoder模块;
  2. 使用location sensitive attention改进之前的attention机制,以有效减少漏音发生的概率,因为TTS中每次alignment的位置,应该是在上次alignment的附近,而不是从memory的所有单元中寻找。
  3. 新增Stop Token,即增加了语音结束位置的预测 损失,来判断decoder是否结束预测输出,以缓解语音合成过程中出现尾音的问题,同时有助于加快收敛;分类问题,概率阈值是个问题。
  4. Post-net:使用5层卷积层来代替CBHG模块;
  5. Vocoder:改进的WaveNet。
Tacotron1 Tacotron2
Input character character
encoder Prenet + CBHG Conv + BiLSTM
attention soft alignment location sensitive attention(减少漏音问题)
decoder residual GRUs LSTM with zoneout
stop token no yes(减少尾音问题)
target linear spectrogram mel spectrogram
vocoder Griffin-Lim WaveNet
loss l1 l2