Parallel-data-free voice conver- sion using cycle-consistent adversarial networks

会议：EUSIPCO 2018
单位：日本NTT

1. abstract

本文实现不需要平行数据，不需要额外的数据，模型，对齐方式实现的高质量，通用的语音转换。用带门控CNN的CycleGAN-VC实现，用adversarial 和cycle consistent loss同时进行正向和反向的映射，从而在不匹配的数据中找到最佳的伪对（psedu paired)。

2. introduction

adversarial loss可以减少转换语音的过平滑（adversarial loss不需要精确的密度估计），identity mapping loss保证文本信息的保存，门控CNN可以建立时序的，层次的结构，同时有助于保存文本信息。

3. cycle-GAN

3.1.1 adversarial loss

source-x, target-y，只是判断是否将source转换到target相同的空间分布
（疑问：那个是source-target对怎么挑选？？）
Parallel-data-free voice conver- sion using cycle-consistent adversarial networks

3.1.2 cycle-consistent loss

Parallel-data-free voice conver- sion using cycle-consistent adversarial networks

总的function
Parallel-data-free voice conver- sion using cycle-consistent adversarial networks

3.2 cycle-GAN-VC

对cycle-GAN的修正主要是2点：（1）门控CNN（2）identity-mapping loss

3.2.1 门控CNN

要建模语音的时序性，可以用RNN，但是并行很难，计算消耗大。因此用门控CNN代替，**函数是GLU（gated-linear units)。
Parallel-data-free voice conver- sion using cycle-consistent adversarial networks

3.2.2 Identity-mapping loss

Parallel-data-free voice conver- sion using cycle-consistent adversarial networks adversarial loss想要保留文本信息，但是not sufficient，因此额外在加Identity-mapping loss用于文本信息保留。(作者有做实验，不要Identity-mapping loss，性能下降很多）
在cycle-GAN的实验中，这一项的加入证明了可以保留颜色。

4. EXPERIMENTS

Parallel-data-free voice conver- sion using cycle-consistent adversarial networks

4.1. Experimental conditions

数据集：VCC2016 (5male, 5female)，挑选其中的4人（2男2女，2 -src, 2-tar)，每个人216个短句子（～13min, 162 for training, 54 for evaluation，为了保证non-parallel, src-tar的挑选分开，前后81句)
特征：16k, 24 D MCEP, LF0, AP映射到 MCEP

4.1.2 Implementation details

生成器用1 D 卷积，判别器用2D卷积
将source和target MCEPs的每一维进行归一化
为了训练稳定，用最小二乘（a least squares loss）替代 $L_{adv}$ 中的负的对数似然， $\lambda_{cyc}=10$
前 $10^4$ iteration 内 $\lambda_{cyc}=5$
为了确保随机性，每次随机挑一个句子随机裁剪128帧，batch_size=1

4.2. Objective evaluation

和基于平行数据的GMM-VC比较（因为作者写文时，GMM-VC尚可与DNN-VC性能比拟）
没有用MCD比较，因为MCD由于高斯分布的假设，更倾向over-smoooth的结果。

比较指标：
GV
MS

4.3. Subjective evaluation

自然度和相似度（within-gender, cross-gender)的测试

Parallel-data-free voice conver- sion using cycle-consistent adversarial networks

1. abstract

2. introduction

3. cycle-GAN

3.1.1 adversarial loss

3.1.2 cycle-consistent loss

3.2 cycle-GAN-VC

3.2.1 门控CNN

3.2.2 Identity-mapping loss

4. EXPERIMENTS

4.1. Experimental conditions

4.1.2 Implementation details

4.2. Objective evaluation

4.3. Subjective evaluation

相关推荐