A Regression Approach to Speech Enhancement Based on Deep Neural Networks

题目：A Regression Approach to Speech Enhancement
Based on Deep Neural Networks
作者：Yong Xu, Jun Du, Li-Rong Dai, and Chin-Hui Lee,
github:

解决的问题

提出了一种有监督的语音增强，通过找到一个基于DNN 的噪声和干净语音之间的映射函数。
首次设计了一个包含多种可能的语音和噪音类型组合的大训练集
提出一些技术能提升基于DNN 的语音增强系统，包括全局方差均衡用来缓解回归模型的过渡平滑问题， dropout和噪声意识训练用来增强DNN 在看不见的噪声下的泛化能力。

method

充分利用声学上下文信息，包括全频带和上下文帧扩展，以获得减少不连续性的增强语音
为了提高泛化能力，在DNN训练集的设计中加入了100多种不同的噪声类型，这对处理不可见的噪声类型，特别是非平稳噪声是非常有效的。
提出了三种提高语音质量和泛化能力的方法，首先，针对基于DNN的语音增强系统中存在的过平滑问题，提出了一种基于增强特征与参考干净语音特征之间的全局方差（GV），第二，把dropout用在语音增强中提高输入变量的泛化能力。第三，提出使用噪声意识训练提高性能

模型

A Regression Approach to Speech Enhancement Based on Deep Neural Networks
baseline分为训练阶段和增强阶段，训练阶段
利用噪声和干净语音的对数功率谱特征，因为它被认为有更高的相关感知参数，在输入信号利用短时傅里叶分析，计算每个窗口重叠帧的离散傅里叶变换，然后计算对数功率谱。增强阶段，用训练好的DNN模型处理含噪语音预测干净语音特征。在获得干净语音的估计对数功率谱特征后，使用如下公式进行重构
A Regression Approach to Speech Enhancement Based on Deep Neural Networks

采用的结构是一个具有许多非线性层的前馈神经网络，允许它们表示一个高度非线性的回归函数，将有噪声的语音特征映射到干净的语音特征

A Regression Approach to Speech Enhancement Based on Deep Neural Networks