Sound quality comparison among high-quality vocoders by using re-synthesized speech
使用重新合成的语音比较高质量声码器之间的音质
介绍
语音分析/合成系统已用于各种应用中,例如语音转换[1]和统计参数语音合成[2]。这些应用程序使用基于声码器[3]的高质量系统,而 STRAIGHT [4]是最好的系统之一。在本文中,“声码器”是指语音分析/合成系统,高质量的声码器可将语音波形准确地分解为基本频率(fo),频谱包络和非周期性。近年来,我们提出了一种新的声码器,命名为 WORLD [5]。STRAIGHT 和 WORLD都已在多个应用程序中使用,例如 Merlin 工具包[6],最近,WORLD 也已在其他应用程序中使用[7,8]。自从我们在 GitHub*上发布 WORLD 以来,持续更新WORLD 以改善合成语音的音质,但没有有关WORLD 当前版本性能的信息。本研究的目的是比较包括STRAIGHT 和 WORLD 的旧版本和当前版本的高质量声码器。为了评估它们,有几种方法,例如检查语音转换后的声音质量和统计参数语音合成。在本文中,通过使用重新合成的语音进行了评估,以讨论最基本的性能。利用获得的结果讨论了它们之间的差异以及每个声码器的特性。被使用了。YANG VOCODERy 也被用作现代声码器。我们之所以没有使用 TANDEM-STRAIGHT [16],是因为我们先前的研究表明它的音质明显劣于 STRAIGHT 和 WORLD [13]。有语音分析算法可以实现高质量的语音合成,例如Nakano 等人的算法[17],但是在此评估中仅选择了具有三个估计量的声码器。
旧版和当前版本的 WORLD 之间的区别
它们之间的主要区别是 fo 和非周期性的估计算法。Harvest 尝试减少清音段,并为连续 F0 建模提供可靠的fo [18]。在清音段被错误地识别为浊音段的情况下,D4C 估计的非周期性通常会导致声音质量下降。由于频谱包络的整个分量都来自非周期性分量,因此在整个频带中,非语音段的非周期性必须为 1.0。D4C 偶尔会在较低的频带中给出一个较低的值,因此,周期性分量被视为噪声。当前版本在 D4C 中添加了一个过程,以识别浊音/清音段,并在帧具有 fo 但被识别为清音段的情况下在整个频带中给出 1.0 的值。这个过程在 WORLD 的源代码中称为 D4C LoveTrain。
由于发声段包含的声谱振动在功率谱中具有-6 dB / oct 的斜率,因此较低频段和较高频段之间的功率比可有效识别该段是否包含声带振动。100 至 4,000 Hz 的功率和 100 至 7,900 Hz 的功率分别用作较低和较高的频带。功率比 c 由下式给出。
其中 代表功率谱,f 代表频率(Hz)。当前版本的WORLD 使用交流电 0.85 作为阈值,交流电低于 0.85 的帧被标识为清音段。在整个频带中,该帧的非周期性设置为 1.0。 自 DIO 以来包括准确的浊音/清音检测,将跳过此过程。
评估方法
进行了基于 MUSHRA 的评估[19],以比较每个声码器的声音质量。表 1 中显示了用于评估的语音。从语音数
据库 FW07 中随机选择了 40 个语音波形[20]。我们没有使用较长的句子来准确地评估短期内由于错误导致的降级。在所有声码器中,将帧偏移设置为 STRAIGHT 的默认值 1 ms,并将其默认值用于其他参数(例如下限和上限频率)进行 fo 估计。 表 2 显示了评估中的实验条件,评估室使用 A 加权 SPL 为 18 dB 的隔音室。14 名听力正常的受试者参加了评估。通过耳机再现声音刺激,并且声压级设置为不超过 70 dB。
结果
图 1 说明了评估结果。垂直轴表示与声音质量相对应的 MUSHRA 分数。误差线代表 95%置信区间。每条水平线上的值代表调整后的 p 值。在统计分析中,我们使用了 Wilcoxon 符号秩检验,因为并非所有人口都可以假定为正态分布。根据 Bonferroni 校正计算调整后的 p 值。我们忽略了原始语音和重新合成语音之间的比较,因为声音质量的差异很明显。由于仅在声码器之间进行了多次比较,所以对的数量为六。因此,调整后的 p 值被计算为原始 p 值的六倍。该图中省略了几个具有明显差异的 p 值。例如,我们省略了 WORLD(收获)和 STRAIGHT 之间的结果,因为它们的差异大于 WORLD(收获)和 WORLD(DIO)之间的差异。
结果表明,WORLD(harvest)在音质上明显优于其他产品。与 STRAIGHT 和 YANG VOCODER 相比,WORLD(DIO)是最好的声码器。STRAIGHT 明显优于 YANG VOCODER。为了讨论每个声码器的特性,我们分析了每个扬声器的实验结果。图 2 说明了评估结果,评估结果在每个发言人中分别计算。WORLD(收获)可以合成所有发言人的自然语音。与其他相比,YANG VOCODER 难以合成男性说话者的自然语音。由于经常观察到元音中的嗡嗡声,主要的原因似乎是频谱包络的准确性。为了讨论这种趋势,每个声码器的累积相对频率分布如图 3 所示。该图表明,由 STRAIGHT 合成的四个语音的得分低于 20。主要原因是错误浊音段被错误地识别为清音段。YANG VOCODER 可以从所有语音波形中准确估计 fo,但是音质相对较差。合成语音的嗡嗡声是主要原因。在 STRAIGHT 和 YANG VOCODER 的比较中,即使看起来没有足够的差异,也观察到了显着差异。原因是平均分数之间的差异不大,但中位数之间的差异足以显示出显着差异。 在 WORLD(收获)和 WORLD(DIO)之间进行比较时,在有声/无声段的边界处观察到声音质量的差异。这种差异表明Harvest 和 D4C LoveTrain 的组合可以按预期工作。简而言之,结果清楚地表明,WORLD 的当前版本是所有声码器中最好的。
结论
本文展示了几种高质量声码器之间的区别。基于 MUSHRA 的评估结果表明,当前版本的 WORLD 可以达到最佳性能。在分析每个语音时,STRAIGHT 无法估计 fo 的多个语音波形。由于频谱包络的准确性较低,YANG VOCODER 无法完全实现自然语音。与旧版本和当前版本的 WORLD 相比,当前版本优于旧版本。下一个目标是在语音转换和统计参数语音合成中进行比较。由于WORLD 无法合成与输入一样自然的语音,因此提高音质也很重要。