CTC原理

不搞语音识别得人开这个论文确实有点费劲，结合上图，思考一下语音识别的场景，输入是一段录音，输出是识别的音素，输入的语音文件的长度和输出的音素个数之间没有一一对应关系，通常将语音文件「分片」之后，会出现多对一的关系。这个场景在「翻译问题」和「OCR问题」中也普遍存在。

本文的特点是，提出来一种end-to-end的方法，直接将语音转问音素。不需要添加规则/后处理等过程。

文章目录 [展开]

几个定义

损失函数定义为平均编辑距离：

CTC原理

一种路径的概率为：

CTC原理

其中表示的是选择的Label，有也称为「路径」，可以发现路径的种数是指数级的。

在现实之中，多个路径会对应一个正确的序列，并且这个序列长度往往小于路径长度，那么序列最终的概率可以使用路径的概率之和表示：

CTC原理

构造分类器

让我们再确定一下我们的目标，我们的目标是通过输入序列得到输出序列，如果我们可以获得输出序列的分布，选择其中概率最大的那一个作为「输出序列」即可。这个逻辑可以通过下面公式表示：

CTC原理

解码方法

这里介绍两种解码方法，解码是对path的分布进行的，输入为path的分布，输出为最终的序列。作者也没有找到比这两种更好的方法了。

Best path decoding

按照上面思路，需要找到序列的所有路径的概率，一种简化的方式是：找到路径中概率最大的，然后其对应的序列就是最优序列，这个方法被称为「Best path decoding」。

这个方法相当于是假设，最优序列的最优路径也是全局最优的（最优表示概率最大），形式化表示为：

CTC原理

prefix search decoding

接着介绍第二种方法，「prefix search decoding」是一种剪枝的算法，剪枝主要在两个方面，一是同路径不重复计算，二是不可能状态不再搜索，下图中第一层的Y不搜索就是因为同层的X和下层的Y概率都比他高。

CTC原理

这个方法是一种比较好的启发式搜索的方法。

网络训练

上面两种方式都是在模型已经训练出来，得到path概率分布之后的解码过程，那么如何训练一个网络，可以更好的预测path分布（即进行编码）呢？

首先这是一个有监督的过程，我们的输入是分片之后的语音文件，输出是长度没有限制的音素序列。

前向后向算法

既然要训练，就要有「损失」，损失是定义预估的Label和正确的Label之间的「距离」，所以我们是希望每一条样本得到的path都可以有较高的概率生成其对应的Label。

对一条样本来说，如果给定了path如何确定生成当前样本的label（最终序列）的概率呢？根据定义，需要穷举所有可以生成正确label的path的概率，最后加到一起，这个计算量最差情况是「指数」级别的，这里可以使用类似HMM中的动态规划的方法，将时间复杂度变为 ;其中表示输入序列长度，表示输出Label长度。接下来就是如何巧妙地定义状态和寻找动态转移方程。

状态定义为：

CTC原理

其中表示输入前个片段，输出为Label中前个音素的概率。

为了实现end-to-end的训练，空格可能出现在任何两个音素之间，所以需要将原始的Label中每一个音素之间添加一个「元素」，这个「元素」可以为NULL和空格（blank）。仔细体会这个修改，对理解后面过程很重要。

理解动态转移方程之前，需要强调几个点：

我们的目标是根据所有的路径（path）计算出来一个长度为的Label，即生成（解码）的概率
path中每一个片段的内容为：音素、NULL、空格，其中每一个都可以连续出现多个
序列中，也是包含三种内容：「音素、NULL、空格」，但是有一些约束，例如下面模式不能出现：「...，音素x，NULL，音素x，...」，因为相同的音素如果是紧挨着肯定是需要合并的。

状态转移方程：

CTC原理