A Regression Approach to Speech Enhancement Based on Deep Neural Networks

A Regression Approach to Speech Enhancement Based on Deep Neural Networks

题目:A Regression Approach to Speech Enhancement
Based on Deep Neural Networks
作者:Yong Xu, Jun Du, Li-Rong Dai, and Chin-Hui Lee,
github:

解决的问题

  • 提出了一种有监督的语音增强,通过找到一个基于DNN 的噪声和干净语音之间的映射函数。
  • 首次设计了一个包含多种可能的语音和噪音类型组合的大训练集
  • 提出一些技术能提升基于DNN 的语音增强系统,包括全局方差均衡用来缓解回归模型的过渡平滑问题, dropout和噪声意识训练用来增强DNN 在看不见的噪声下的泛化能力。

method

  • 充分利用声学上下文信息,包括全频带和上下文帧扩展,以获得减少不连续性的增强语音
  • 为了提高泛化能力,在DNN训练集的设计中加入了100多种不同的噪声类型,这对处理不可见的噪声类型,特别是非平稳噪声是非常有效的。
  • 提出了三种提高语音质量和泛化能力的方法,首先,针对基于DNN的语音增强系统中存在的过平滑问题,提出了一种基于增强特征与参考干净语音特征之间的全局方差(GV),第二,把dropout用在语音增强中提高输入变量的泛化能力。第三,提出使用噪声意识训练提高性能

模型

A Regression Approach to Speech Enhancement Based on Deep Neural Networks
baseline分为训练阶段和增强阶段,训练阶段
利用噪声和干净语音的对数功率谱特征,因为它被认为有更高的相关感知参数,在输入信号利用短时傅里叶分析,计算每个窗口重叠帧的离散傅里叶变换,然后计算对数功率谱。增强阶段,用训练好的DNN模型处理含噪语音预测干净语音特征。在获得干净语音的估计对数功率谱特征后,使用如下公式进行重构
A Regression Approach to Speech Enhancement Based on Deep Neural Networks
A Regression Approach to Speech Enhancement Based on Deep Neural Networks
采用的结构是一个具有许多非线性层的前馈神经网络,允许它们表示一个高度非线性的回归函数,将有噪声的语音特征映射到干净的语音特征