声学特征 PNCC
特点
power-normalized cepstral coefficients相比于MFCC特征:
- 在噪声和混响场景下提升识别效果,尤其在训练语料是clean语音的时候
- 相比于MFCC,计算量提升34.6%
使用pncc相比mfcc,噪声和口音测试集可以得到10-15%的相对提升
细节
和MFCC/PLP特征的整体对比如上图
filter bank
相比于MFCC的triangular filters,PNCC使用gammatone filters,40维,截止频率分别是200/8000。
获得
medium-time power calculation
由于噪声的能量变化相比语音慢很多,所以更大的时间窗口可以得到更好的性能,所以对每一帧进行了平滑处理(左右2帧做平均)。
得到的
asymmetric noise suppression
因为语音的能量相比噪声变化快,所以使用谱减法来过滤掉低频部分以达到抑制噪声的目的。
其中的temperal masking的引入可以减弱混响的影响,首先获得每个channel的moving peak,如果某一帧的能量低于这个peak曲线,缩小对应的能量。
获得
spectral weight smoothing
在不同的channel之间做平滑。
其中
最后调制
mean power normalization
均值的获取使用online的形式
归一化以后:
rate-level nonlinearity
相比于MFCC使用的log非线性函数,PNCC使用指数函数,更符合人耳听觉神经的压缩感知
参考
Power-Normalized Cepstral Coefficients (PNCC) for Robust Speech Recognition
http://www.cs.cmu.edu/~robust/archive/algorithms/PNCC_C