AI-语音处理理论和应用-语音信号
学习目标
• 了解语音处理的基础知识及应用
• 掌握语音处理的基本步骤
• 掌握语音处理的主要技术
• 了解语音处理的难点与展望
语音信号
语音信号分析
• 语音处理的前提和基础是语音信号分析。
• 语音合成音质的好坏和语音识别率的高低,都取决于对语音信号分析的准确度和精度。
• 语音信号会随着时间的变化而变化,它是一种非平稳态的时变信号。但是,由于人的发音受口腔肌肉的影响,语音信号在一个短时范围内相对稳定,可以看做是一个准稳态的过程,所以语音信号具有短时平稳性。
• 短时分析技术贯穿于语音信号分析的全过程。
• 分类
• 根据参数
• 时域分析
• 频域分析
• 倒频域分析
• 小波域分析
• 分析方法
• 模型分析方法
• 非模型分析方法
语音信号数字化
• 为何要进行语音信号数字化
• 之前讲过,语音信号又称为数字语音信号,如今常用的语音信号的处理工具(计算机、过滤器……)全都是数字化设备。
• 语音信号的数字化一般包括音频自动增益(ACG)、反混叠滤波、采样、A/D转换、编码。
• A/D转化中要对信号进行量化,这回产生误差,量化后的额信号值与原信号值之间的差值称为量化误差,又叫量化噪声。
语音信号预处理
• 属于语音信号分析的前置过程,只有对语音信号进行一个比较干净、合理的预处理得到一个可信的数据后才能对语音信号进行准确的分析。
• 预处理一般包括预加重、加窗和分帧等。
• 预加重:语音信号低频段能量大,高频段信号能量小;语音的功率谱密度随频率的增高而下降。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个信号频带中,能用同样的信噪比求得频谱。
• 分帧:因为语音的短时平稳性,所以要进行“短时分析”,即将信号分段,每一段称为一帧(一般10-30ms)。分帧虽然可以采用连续分段的方法,但一般要采用交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移。
• 加窗:减少语音帧的截断效应。常用的窗有两种:矩形窗和汉明窗。
语音信号的时域分析
• 语音信号的时域分析就是分析和提取语音信号的时域参数。
• 时域分析是最早使用也是应用最广泛的一种分析方法(语音信号本身就是时域信号),通常用于语音分割、预处理、大分类等最基本的参数分析和应用。
• 特点:
• 物理意义明确,直观
• 实现简单
• 可以获得一些语音中重要的参数
• 语音信号的时域参数:
• 短时能量
• 短时过零率
• 短时自相关函数
• 短时平均幅度差函数
• 缺点:很多本质的内容无法被发现,就需要用到语音信号的频域分析
语音信号的频域分析
• 语音信号的频域分析就是分析和提取语音信号的频域参数。
• 最常用的频域分析方法为傅里叶分析法。语音信号是一个非平稳过程,因此需要用短时傅里叶变换对语音信号进行频谱分析。通过语音信号的频谱可以观察它们的共振峰特性、基音频率和谐波频率。