【speach】语音信号基础

语音信号处理


语音编码

语音合成

语音识别

说话人识别

语音增强


【speach】语音信号基础

语音的时域-频域-相位

SNR (信噪比)

用分贝(dB)作为度量单位,即:信噪比(dB)= 10 * log10(S/N) (dB)
例如:当S/N=10时,信噪比为10dB;当S/N=1000时,信噪比为30dB。

线性时不变系统

脉冲,线性时不变系统

线性时不变=线性+时不变。

  1. 时不变即系统参数不随时间而改变。

  2. 线性=齐次性+叠加性。

齐次性即输入增大n倍,输出为原输出的n倍。

叠加性即f1+f2输入系统,输出为f1的响应+f2的响应。

脉冲响应: h ( n ) = T { δ ( n ) } h(n) = T\{\delta(n)\} h(n)=T{δ(n)} 脉冲信号作为LTI系统的输入得到的输出

阶跃响应: h ( n ) = T { u ( n ) } h(n) = T\{u(n)\} h(n)=T{u(n)}

LTI系统、卷积、离散、脉冲、阶跃

DTFT(离散时间傅里叶变换)

它将以离散时间信号X(n) 变换到连续的频域,值得注意的是这一频谱是周期的,且周期为2π。原信号是非周期函数,DTFT变换后是连续函数;

DTFT表达式为
【speach】语音信号基础
【speach】语音信号基础

逆变换:

【speach】语音信号基础

极坐标形式:
【speach】语音信号基础

特性:
【speach】语音信号基础

DFT(离散傅里叶变换)

【speach】语音信号基础

逆变换:

【speach】语音信号基础

[深入理解FT,DTFT,DFT 之间的关系][https://blog.csdn.net/weixin_40679412/article/details/80426463]

STFT(短时傅里叶变换)

【speach】语音信号基础

人耳的听觉掩蔽效应

一般人可以感觉到20Hz-20kHz,强度为5dB-130dB。
人耳的掩蔽效应:在一个强信号附近,弱信号将变得不可闻,被掩蔽掉了。被掩蔽的不可闻信号的最大声压级称为掩蔽门限或者掩蔽阈值

【speach】语音信号基础

基因频率 :声带开启和闭合一次的时间为基音周期,倒数为基因频率(声带振动频率),取决于声带尺寸与特性(80-500hz)随发音人性别,年龄及具体情况而定。

共振峰:多个谐振频率,与每一瞬间声道的外形和尺寸决定,决定了语音的频谱特性(音色)从频谱的总轮廓及谱包络看到(前三个共振峰最重要)

清音:声带不震动,包括一部分辅音,随机噪声(白噪声)

浊音:声带振动,包括所有元音,另一部分辅音,波形为脉冲序列,脉冲间隔为基音周期

音素(元音辅音)- > 音节 - > 词

语音信号生成的模型

理想的模型是线性时不变的,但是语音信号是非平稳的随机过程,其特征是随着时间变化的,所以模型的参数也是随着时间变化的。但是语音信号随着时间变化是缓慢的,所以可以做一些合理的假设,将语音信号分为一些相继的短段进行处理,在这些段中我们可以认为语音信号特征是不随着时间变化的平稳随机过程。这样在这些短暂时间内表示的语音信号,可以采用线性时不变模型来分析。也被称为“短时分析技术”。

语音信号被看成是线性时不变系统(声道)在随机噪声或准周期脉冲序列激励下的输出。其生成的数学模型可由三部分共同作用在声波上产生:

  • 声门产生的激励模型G(z)——激励系统
  • 声道产生的调制函数V(z)——声道系统
  • 嘴唇产生的辐射函数R(z)——辐射系统

语音信号的传递有这三个函数级联而成:
【speach】语音信号基础

激励模型

激励模型一般分为浊音激励和清音激励,来分开讨论。

浊音

发浊音时,由于声带不断张开和关闭,将产生间歇的脉冲波,这种脉冲波类似与斜三角形的脉冲。这种产生的脉冲串周期称为“基音周期”,其倒数即为基音频率。

清音

发清音时,如果声带是完全舒展开来的,则肺部发出的空气流将不受影响的通过声门。通过声门之后,通过声道某一部分的控制有两种情况,一是发阻塞音,二是发摩擦音。因此,可以把清音激励模拟成随机白噪声(均值为0,方差为1)。

简单地把激励分为浊音和清音不全面!实际上,对于浊辅音,尤其是浊擦音,即使把两种激励进行简单的叠加也是不行的。

声道模型

关于声道部分的数学模型,有多种观点,目前最常用的有两种建模方法。一是把声道视为由多个等长的不同截面积的管子串联而成的系统。按此观点推导出的叫“声管模型”。另一个是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。

共振峰模型:把声道视为一个谐振腔。共振峰就是这个腔体的谐振频率。由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的,所以这种共振峰的声道模型方法是非常有效的。**一般来说,一个元音用前三个共振峰来表示就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰才行。**声道模型有串联型、并联型、混合型关于数学模型暂不介绍。

辐射模型

由辐射引起的能量损耗正比于辐射阻抗的实部R(z),其频响曲线表现出一阶高通滤波器的特性。在实际信号分析时,常用所谓预加重技术。这样,模型只剩下声道部分,对参数分析就方便了。在语音合成时再进行解加重处理。

语音信号的数学模型

综上所述,完整的语音信号的数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。它的传输函数可以表示为:
【speach】语音信号基础
G(z)是激励信号,浊音时G(z)是声门脉冲即斜三角形脉冲序列的z变换;在清音的情况下,G(z)是一个随机噪声的z变换。V(z)是声道传输函数,既可用声管模型,也可以共振峰模型等来描述。

【speach】语音信号基础

【speach】语音信号基础

上式所示模型的内部结构并不和语音产生的物理过程相一致,但这种模型和真实模型在输出处是等效的。另外,这种模型是“短时”的模型,因为一些语音信号的变化是缓慢的,例如元音在10-30ms内其参数可假定不变。这里声道转移函数是一个参数随时间缓慢变化的模型。另外,这一模型认为语音是声门激励源激励线性系统—声道所产生的。

分帧

【speach】语音信号基础

分帧一般采用交叠分段的方法,是为了使帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般取为0-1/2。

分帧是用可移动的有限长度窗口进行加权的方法来实现的,就是用一定的窗函数ω(n)来乘s(n),从而形成加窗语音信号Sω(n)=s(n)×ω(n)

窗函数的要求:

  1. 在时域因为是语音波形乘以窗函数,所以要减小时间窗两端的坡度,使窗口边缘两端不引起急剧变化而平滑过渡到零,这样可以使截取出的语音波形缓慢降为零,减小语音帧的截断效应;
  2. 在频域要有较宽的3dB带宽以及较小的边带最大值

经过上述的处理过程,语音信号就已经被分割成一帧一帧的加过窗函数的短时信号,然后再把每一个短时语音帧看成平稳的随机信号,利用数字信号处理技术来提取语音特征参数。在进行处理时,按帧从数据区中取出数据,处理完成后再取下一帧,等等,最后得到由每一帧参数组成的语音特征参数的时间序列

MFCC

Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)的分析是基于人的听觉机理,即根据人的听觉实验结果来分析语音的频谱,期望能获得好的语音的特性。
关于感知频率与实际频率的对应关系的表达式分别如下:

Fmel=1127log(1+f/700); 及f=700.0(exp(Fmel/1127-1));

  • 1)先对语音进行预加重、分帧和加窗
  • 2)对每一个短时分析窗,通过FFT得到对应的频谱
  • 3)将上面的频谱通过Mel滤波器组得到Mel频谱
  • 4)在Mel频谱上面进行倒谱分析(取对数,做逆变换,实际逆变换一般是通过DCT离散余弦变换来实现,取DCT后的第2个到第13个系数作为MFCC系数),获得Mel频率倒谱系数MFCC,这个MFCC就是这帧语音的特征

*;

  • 2)对每一个短时分析窗,通过FFT得到对应的频谱
  • 3)将上面的频谱通过Mel滤波器组得到Mel频谱
  • 4)在Mel频谱上面进行倒谱分析(取对数,做逆变换,实际逆变换一般是通过DCT离散余弦变换来实现,取DCT后的第2个到第13个系数作为MFCC系数),获得Mel频率倒谱系数MFCC,这个MFCC就是这帧语音的特征

【speach】语音信号基础