STRAIGHT分析合成算法

STRAIGHT ( Speech Transformation and Representation using Adaptive Interpolation of weighted spectrum)

即自适应加权谱内插,是一种语音信号分析合成的算法。

STRAIGHT 特点:将语音信号解析成相互独立的频谱参数(谱包络)和基频参数(激励部分,语音信息),能够对语音信号基频、时长、增益、语速等参数进行灵活调整。该模型在分析阶段仅针对语音基音频率、平滑功率谱和非周期成分 3 个模型参数进行提取分析,在合成阶段利用上述 3 个模型参数进行语音重构。
STRAIGHT分析合成算法
STRAIGHT模型基本原理来源于信道声码器 (VOCODER)。VOCODER以及 线性预测编码 可灵活对参数进行优化,因为其功率谱和源信号参数间的内部约束较小。因此,STRAIGHT模型采用VOCODER为原型的 源滤波器 表征语音信号,可将语音信号视为一激励信号通过时变线性滤波器后的输出结果。
该模型一方面利用补偿窗来消除时域信号的周期性干扰,另一方面在样条空间中进行逆滤波来消除频域干扰,因此在很大程度上提高了合成语音的质量。

特征提取

  1. 平滑功率谱提取(包括低频带补偿和清音帧处理等过程)
    STRAIGHT模型分析阶段的一个关键步骤是进行自适应频谱分析———获取无干扰且平滑的功率谱。
    STRAIGHT分析合成算法
    对语音进行快速傅里叶变换(FFT),并通过一系列方法进行修正与补偿,最终获取平滑功率谱。 通过固定时窗函数与基音自适应平滑滤波器产生的可变基音间的尺寸误匹配消除时域的周期干扰。同时,对频域的相位干扰进行处理,利用补偿时间窗消除相位失真引起的频谱空洞。另外,为了进一步提高STRAIGHT模型的语音合成质量,在频域中采用过平滑补偿法恢复一些潜在的语音功率谱结构特征。
    根据上述功率谱提取步骤,经过一系列降干扰后语音平滑功率谱Pr(w,t)可近似表示为:
    STRAIGHT分析合成算法
    其中,Po(w ,t)和Pc(w ,t)分别为语音信号的原始功率谱和补偿功率谱,ζ为补偿系数。

  2. 非周期成分提取(描述浊音帧)
    非周期成分可灵活描述周期能量和噪声能量间的比例关系,其中周期能量和噪声能量分别由语音功率谱的上包络和下包络决定。由于非周期成分的提取过程包含许多复杂的非线性运算,如包裹相位映射和等效矩形带宽(ERB)域的功率谱计算等,因此很难精确地用公式对非周期成分进行表示。
    STRAIGHT分析合成算法
    语音的谐波成分在其功率谱中所占比重隐含于非周期成分参数中,非周期成分参数a (w ,t)可表示为:
    STRAIGHT分析合成算法
    其中,PoH(w, t)和PoL(w, t)分别为Po,(w t)的上下功率谱包络。

  3. 基频轨迹提取
    通过小波时频分析的方式。首先是通过对语音信号中的基频信息进行解析,然后计算出相应的瞬时基频值,最后在频率域上进行谐波解析,并在频率轴上进行平滑处理,获得语音信号的各基频参数。
    基频F0提取:设计一个Gabor滤波器(频域有较高分辨率)

语音合成

STRAIGHT 算法采用 PSOLA 技术和最小相位脉冲响应相结合的方式,在合成语音时输入待合成语音的基音频率轨迹和去除了周期性的二维短时谱包络。待合成语音 y(t) :
STRAIGHT分析合成算法
第一个公式反映的是基音同步叠加的过程 , Q 表示用于实现语音合成的基音同步标记的集合, y(t)表示所恢复的语音信号,函数G( )表示基频调整参数,它可以是任意形式的映射关系。
第二个公式说明的是每帧语音信号的冲击响应求取过程,筏是一个具备附加控制相位激励的全通滤波器,可以用来改善听觉,函数V( ) 表示最小的相位冲击响应傅里叶变换。
第三个公式反映了确定基音同步位置的过程。