您的位置: 首页 > 文章 > Tacotron2: NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS知识点说明

Tacotron2: NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS知识点说明

分类: 文章 • 2024-05-29 17:03:52

Tacotron2: NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS

文章于2018年2月发表

Tacotron2: NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS知识点说明

Tacotron2与Tacotron1对比，，模型基本框架相似，主要改变为：

Encoder: 3层包含512个5X1滤波器的卷积层，一个双向512单元的LSTM层，来代替tacotron1中的CBHG模块，简化了encoder模块；
使用location sensitive attention改进之前的attention机制，以有效减少漏音发生的概率，因为TTS中每次alignment的位置，应该是在上次alignment的附近，而不是从memory的所有单元中寻找。
新增Stop Token，即增加了语音结束位置的预测损失，来判断decoder是否结束预测输出，以缓解语音合成过程中出现尾音的问题，同时有助于加快收敛；分类问题，概率阈值是个问题。
Post-net：使用5层卷积层来代替CBHG模块；
Vocoder：改进的WaveNet。

	Tacotron1	Tacotron2
Input	character	character
encoder	Prenet + CBHG	Conv + BiLSTM
attention	soft alignment	location sensitive attention(减少漏音问题)
decoder	residual GRUs	LSTM with zoneout
stop token	no	yes(减少尾音问题)
target	linear spectrogram	mel spectrogram
vocoder	Griffin-Lim	WaveNet
loss	l1	l2