简话T T S(持续更新)

T T S,

Wavenet

Wavenet并不是一个端到端模型,由于它的输入并不是raw text而是经过处理的特征,因此它实际上只是代替了传统TTS pipeline的后端(回忆我们在之前文章中的概念,传统TTS pipeline由前端和后端组成)。Wavenet最大的成功之处就是使用dilated causal convolution技术来增加CNN的receptive field,从而提升了模型建模long dependency的能力,如下图所示:
简话T T S(持续更新)
另外,Wavenet也使用了很多当时deep learning中出现的新技术,包括门控机制、残差链接等

Tacotron

Tacotron是第一个端对端的TTS神经网络模型,输入raw text,Tacotron可以直接输出mel-spectrogram,再利用Griffin-Lim算法就可以生成波形了。模型的总体架构如下图所示:
简话T T S(持续更新)
总体来说,模型和sequence-to-sequence模型非常相似,大体上由encoder和decoder组成,raw text经过pre-net, CBHG两个模块映射为hidden representation,之后decoder会生成mel-spectrogram frame。

简话T T S(持续更新)
Tacotron比较明显的就是生成最终波形的算法,即Griffin-Lim算法,Tacotron中作者也提到了,这个算法只是一个简单、临时的neural vocoder的替代,因此要改进Tacotron就需要有一个更好更强大的vocoder。

Tacotron2

Tacotron2使用了一个和Wavenet十分相似的模型来代替Griffin-Lim算法,同时也对Tacotron模型的一些细节也做了更改,最终生成了十分接近人类声音的波形。
简话T T S(持续更新)

和Tacotron一样,pre-net的功能是作为bottleneck layer来增加泛化能力和加速收敛。

除了Wavenet,Tacotron2和Tacotron的主要不同在于:

不使用CBHG,而是使用普通的LSTM和Convolution layer
decoder每一步只生成一个frame
增加post-net,即一个5层CNN来精调mel-spectrogram