百面深度学习 | 第十四期:语音识别

“百面深度学习”系列连载 第十四期

语音识别

引言

听觉是人工智能的基本要素,也是信息交互重要的入口,自动语音识别技术(Automatic Speech Recognition, ASR)是计算机听觉领域中重要的研究方向之一。其目标是通过计算机将一段包含自然语言发音的声音信号转换为对应的词序列。该领域早已成为一个传统的研究热点,在深度学习的浪潮中又让它焕然一新,在过去三年识别性能变革性地提升,如今的智能语音识别技术可以实现高精度的人机语音交互、语音翻译、声纹识别等功能,当它与先进的自然语言处理技术(Natural Language Processing,NLP)相结合会衍生出更丰富的应用场景,如语音合成与转换、对话系统、语音增强与分离等,该技术被广泛集成于智能音箱、语音助手等产品中。

问题

在语音识别任务中,

由传统方法到现在主流方法有哪些变化?

分析与解答

语音识别算法系统由“编码器”与“解码器”两部分组成。其中编码器包括“信号处理和特征提取”模块,解码器包括“搜索算法”、“声学模型”、“语言模型”三个模块,整体流程图如 Fig. 1 所示。

  • 信号处理与特征提取:以音频信号为输入,通过信号去噪与增强等方式预处理声音信号,再通过时频转换与相关算子提取特征完成语音信号编码。

  • 声学模型:以提取的特征为输入,结合声音学相关知识,为可变长特征序列生成声学模型分数,得到语音特征到音素的映射。

  • 语言模型:一般采用链式法则,把一个语句的概率拆解成每个词的概率乘积,通过重训练语料学习词之间的相互概率,估计词序列的可能性,得到语言模型得分。

  • 搜索算法:对给定的特征向量和假设词序列计算声学模型得分和语言模型得分,综合总体分数最高的词序列为识别结果。

百面深度学习 | 第十四期:语音识别

Figure 1: 语音识别算法流程图

传统方法

在20世纪80年代到2012年左右,传统语音识别算法处于主导地位。传统方法中最常用的策略是采用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC) 进行特征提取,使用基于混合高斯模型的隐马尔可夫(Gaussian Mixture Model-Hidden Markov Model,GMM-HMM)声学模型的算法,算法流程图如 Fig. 2 所示。

百面深度学习 | 第十四期:语音识别

Figure 2: GMM-HMM算法流程图

编码器会首先对音频信号进行帧切割、高频加强、加窗、去噪的预处理,主要目的是增强高频信号、削弱信号的不连续性与减少噪声干扰。随后通过 MFCC 进行特征提取,将线性频谱映射到听觉感知的梅尔非线性频谱中,排除了基频干扰,然后转化至倒谱上,从而模拟人类听觉感知处理特点,提高语音识别率。

解码器的声学模型 GMM-HMM 是整个系统的难点,HMM 模块是最核心的部分,主要解决的问题是把特征帧识别成状态、并将其组合成音素、最终组合成单词。GMM 是基于傅里叶频谱语音特性的统计模型,常被用来拟合基于状态的输出分布,使用 GMM 对 HMM 每个状态的语音特征分布进行建模,可以有效地将特征值识别为状态并拟合任意精度的概率分布并得到状态分布,也被称为 HMM 的似然度(可理解为观测概率)。为了描述语音数据,用上述得到的观测概率分布与马尔可夫链上的状态对应,引入双重随机性,称为隐马尔可夫模型。HMM 具有顺序排列的马尔可夫状态,使得模型能描述语音信号中不平稳但有规律的空间变量,以此逼近全局非平稳的语音特性序列,在上一状态跳转至当前状态的概率为转移概率。在可知转移概率矩阵、马尔可夫链初始概率与每个状态观察概率分布后,即可通过 EM 优化算法进行估计。语言模型是通过大量文本训练,利用语言本身的统计规律来提升识别的准确率,比如 Bigram 就是常见的基于马尔可夫理论的语言模型,通过链式法则将句子拆成每个词的概率之积,假设当前字的输出只与上一个字相关,估计序列组成的概率。最后通过搜索算法结合声学模型与语言模型给出的得分,综合考虑后输出最为贴合的词序为识别结果。

现代方法

随着语音识别应用场景的不断更迭,传统技术停滞不前,研究者开始尝试用深度神经网络(Deep Neural Network,DNN)来代替传统方法的模块,整体结构也逐渐从复杂的多模块级联转为端到端的设计。大约仅两年,工业界的 ASR 相关产品均已采用深度神经网络的技术,成功激发了对深度学习算法和结构的探究。

DNN 的学习与分类能力很强,在代替信号预处理、特征提取与 GMM 模块后性能会优于传统的 GMM-HMM 系统,因而这种以 DNN 处理输入信号转化成状态的 DNN-HMM [1] 引领了混合系统的风潮,成为现代语音识别算法革新的起点,图 Fig. 3 为算法结构。

百面深度学习 | 第十四期:语音识别

Figure 3: DNN-HMM 算法流程图

随后研究者着手考虑用对时间序列处理效果很好的循环神经网络来代替对上下文的建模能力有限的 HMM 模块,在解决了梯度消失、爆炸和记忆力有限的问题后,采用基于 LSTM 的循环神经网络,每个时间步的各层都有状态变量,实现了图 Fig. 4 CTC (Connectionist Temporal Classification)神经网络结构 [2] ,解决时序问题的分类,因此大幅度降低词错误率。在此阶段的 CTC 输出音素串后,仍然需要结合语言模型和字典来进行转换。随后,研究者用神经网络强大的建模能力来替代语言模型、字典等模块,真正实现了端到端的模型网络,如基于 CTC 的 EESEN 模型 [3] ,它虽然已经包含了传统语言模型的信息,但效果还较弱并需要与语音配对的文本数据,通常会再接入大数据量的语言模型来保证性能。另外,也有引入注意力机制尝试的 LAS(Listen, Attend and Spell)模型 [4] ,它在解决语序不单调和语音输入与识别输出的长度悬殊等问题中有很好的效果。

百面深度学习 | 第十四期:语音识别

Figure 4: CTC 算法流程图

[1] HINTON G, DENG L, YU D, 等. Deep neural networks for acoustic modeling in speech recognition[J]. IEEE Signal processing magazine, 2012, 29.

[2] GRAVES A, FERNÁNDEZ S, GOMEZ F, 等. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks[C]//Proceedings of the 23rd international conference on Machine learning. ACM, 2006: 369–376.

[3] MIAO Y, GOWAYYED M, METZE F. EESEN: End-to-end speech recognition using deep RNN models and WFST-based decoding[C]//2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU). IEEE, 2015: 167–174.

[4] CHAN W, JAITLY N, LE Q, 等. Listen, attend and spell: A neural network for large vocabulary conversational speech recognition[C]//2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2016: 4960–4964.

下期预告

自动驾驶

引言

现今无人驾驶技术和产业的蓬勃发展主要归功于美国国际高级研究计划局(Defense Advanced Research Projects Agency, DARPA)举办的无人驾驶挑战赛。这项比赛的初衷源于美国国会在2001年设定的目标,即到2015年实现美国地面部队的1/3车辆具备无人驾驶的能力。为了激励这项技术的发展,DAPRA于2004年举办第一届无人驾驶挑战赛。比赛地点位于美国西部的戈壁莫哈维沙漠,要求车辆在非人为控制下完成240公里的路程,奖金高达100万美元。遗憾的是在这场比赛中,所有参赛车队没有一支队伍完成这项任务,第一名仅完成了11.78公里的自动驾驶路程。在第二年的比赛中,各个车队都取得了飞跃性的进展,共有5支队伍完成了比赛。第一名来自于Google无人驾驶的开山鼻祖--Sebastian Thrun所带领的斯坦福车队。这两次比赛的场景还是崎岖空旷的山区道路。直到2007年,比赛首次引进了城市道路大赛,要求车辆可以自动识别、理解城市路况。这场比赛可以说是无人驾驶领域的分水岭事件。Google的无人驾驶项目也诞生于这场比赛。

问题1

如何基于深度神经网络,

设计一个端到端的自动驾驶模型?

问题2

如何设计一个基于增强学习的自动驾驶决策系统?

简述算法设计思路。

丁老师与小兰终于同框了!

最近精致女孩小兰把她的refa微电流按摩仪带到公司了,并向丁老师进行了一波安利。丁老师嫌弃电流微弱到毫无感觉,并建议:使用refa的时候配上滑动变阻器和220v电压,通过滑动变阻器动态调节电流大小,选择自己最喜欢的强度,以达到最佳的按摩效果。

丁老师二三事

说明:“丁老师二三事”是取材于Hulu日常的虚构创作,如有雷同,您别当真~

关注Hulu公众号

你就是最爱学习的仔~

百面深度学习 | 第十四期:语音识别