人工智能之语音识别技术(三)

1. 语音识别系统框架

1.1 语音识别系统的基本内容

  • 语音特征特区
  • 声学模型
  • 语言模型

语音识别系统的框架如图所示,首先语音信号经过特征提取转换成数字语音信号,然后结合声学模型和语言模型对数字信号进行解码,最后完成语音的识别。
人工智能之语音识别技术(三)

2 语音特征提取

2.1 音频信号提取

  • 在任意一个语音识别系统中,第一步就是提取特征。换句话说,我们需要把音频信号中具有辨识性的成分提取出来。
  • 语音通常是指人说话的声音。从生物学的角度来看,是气流通过声带、咽喉、口腔、鼻腔等发出声音;从信号的角度来看,不同位置的震动频率不一样,最后的信号是由基频和一些谐波构成。
    人工智能之语音识别技术(三)

2.3 声谱图

  • 语音被分为很多帧,每帧语音都对应于一个频谱(通过短时FFT计算),频谱表示频率与能量的关系。在实际使用中,频谱图有三种,即线性振幅谱、对数振幅谱、自功率谱
    人工智能之语音识别技术(三)

2.4 声谱图旋转

  • 先将其中一帧语音的频谱通过坐标表示出来。现在我们将左边的频谱旋转90度。得到中间的图。然后把这些幅度映射到一个灰度级表示。
    人工智能之语音识别技术(三)

2.5 spectrogram声谱图

  • 我们会得到一个随着时间变化的频谱图,这个就是描述语音信号的spectrogram声谱图。
    人工智能之语音识别技术(三)

3 声学模型

3.1 声学模型

  • 首先回顾一下语音识别的任务,输入input是音频wav文件,保存的一般是经过抽样量化编码之后数字信号,也就是每个样点的值。输出是文字序列,代表这段音频的内容。
    人工智能之语音识别技术(三)

3.2 主流的声学模型建模技术

  • 深度神经网络超强的特征学习能力大大简化了特征抽取的过程,降低了建模对于专家经验的依赖,因此建模流程逐步从之前复杂多步的流程转向了简单的端到端的建模流程。
    人工智能之语音识别技术(三)