搬运自:https://www.bilibili.com/video/BV1MJ411w7xR
我们今天要解决的问题是自然语言处理中的序列标注问题, 在目前, 比较主流的技术是语言模型(如LSTM, BERT)+CRF(条件随机场), 为什么这样组合模型呢? 我稍后会讲到. 但想要了解CRF(条件随机场), 我想首先让大家了解一下隐马尔可夫模型(Hidden Markov Model), 是一种概率图模型, 只要理解了HMM模型和维特比解码算法(viterbi algorothm), 理解条件随机场就成了分分钟的事.
在这节课中, 你不需要有概率图模型的基础, 只要有基本的概率论知识即可.
首先, 先来看一下今天的课程安排:
- NER(命名实体识别)问题概述;
- 什么是隐马尔可夫模型(HMM);
- HMM模型的参数;
- 用HMM解决序列标注问题, HMM的学习算法;
- 维特比算法(Viterbi Algorithm)(HMM的预测算法).
0. named entity recognition(命名实体识别)问题概述:
命名实体识别(英语:Named Entity Recognition,简称NER), 是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等等, 并把我们需要识别的词在文本序列中标注出来。
例如有一段文本: 济南市成立自由贸易试验区.
我们要在上面文本中识别一些区域和地点, 那么我们需要识别出来内容有:
济南市(地点), 自由贸易试验区(地点).
在我们今天使用的NER数据集中, 一共有7个标签:
- “B-ORG”: 组织或公司(organization)
- “I-ORG”: 组织或公司
- “B-PER”: 人名(person)
- “I-PER”: 人名
- “O”: 其他非实体(other)
- “B-LOC”: 地名(location)
- “I-LOC”: 地名
文本中以每个字为单位, 每个字必须分别对应上面的任一标签.
但为什么上面标签除了"O"(其他)之外都是一个实体类型对应两个标签呢?
请小伙伴们仔细看标签前面有分为"B"和"I"的不同, "B"表示begin, 实体开头的那个字使用"B"对应的标签来标注, 在实体中间或结尾的部分, 用"I"来标注.
比如说"自贸区"对应的标注是: 自(B-LOC)贸(I-LOC)区(I-LOC), 这三个字都对应一个"地名"的标签, 但是第一个字属于实体开头的字, 所以使用"B"开头的标签, 后面两个字的标签都是"I"开头.
注意, "B"后面是不可以跟其他类型的"I"的, 例如: 自(B-PER)贸(I-LOC)区(I-LOC) 就是属于错误的标注, 因为实体开头"B"标注成了人名, 即使实体中间标注成了地名, 这个实体的标注方法也是非法的.
上面的原因就是我们要从语言模型(例如BERT, LSTM)后面再加上概率图模型, 例如条件随机场, 用来约束模型的输出, 防止出现不合规的标注输出.
1. 什么是隐马尔可夫模型 a.k.a.HMM?
HMM模型是概率图模型的一种, 属于生成模型, 笼统的说, 我们上面说的"BIO"的实体标签, 就是一个不可观测的隐状态, 而HMM模型描述的就是由这些隐状态序列(实体标记)生成可观测状态(可读文本)的过程.
在我们今天的问题当中, 隐状态序列是实体标记序列, 而可观测序列是我们可读的原始语料文本序列.
例如:
隐藏状态序列: B−LOC∣I−LOC∣I−LOC
观测状态序列: 自贸区
设我们的可观测状态序列是由所有汉字组成的集合, 我们用VObsevation来表示:
Vobs.={v1,v2,...,vM}
上式中, v表示字典中单个字, 假设我们已知的字数为M.
设所有可能的隐藏状态集合为Qhidden, 一共有N种隐藏状态, 例如我们现在的命名实体识别数据里面只有7种标签:
Qhidden={q1,q2,...,qN}
设我们有观测到的一串自然语言序列文本O, 一共有T个字, 又有这段观测到的文本所对应的实体标记, 也就是隐状态I:
I={i1,i2,...,iT}(隐状态)O={o1,o2,...,oT}(观测)
注意上式中, 我们常称t为时刻, 如上式中一共有T个时刻(T个汉字).

HMM模型有两个基本假设(非常重要):
- 第t个隐状态(实体标签)只跟前一时刻的t−1隐状态(实体标签)有关, 与除此之外的其他隐状态(如t−2, t+3)无关.
例如上图中: 蓝色的部分指的是it只与it−1有关, 而与蓝色区域之外的所有内容都无关, 而P(it∣it−1)指的是隐状态i从t−1时刻转向t时刻的概率, 具体转换方式下面会细讲.
- 观测独立的假设, 我们上面说过, HMM模型中是由隐状态序列(实体标记)生成可观测状态(可读文本)的过程,
观测独立假设是指在任意时刻观测ot只依赖于当前时刻的隐状态it, 与其他时刻的隐状态无关.
例如上图中: 粉红色的部分指的是it+1只与ot+1有关, 跟粉红色区域之外的所有内容都无关.
2. HMM模型的参数:
-
HMM的转移概率(transition probabilities):
我们上面提到了P(it∣it−1)指的是隐状态i从t−1时刻转向t时刻的概率, 比如说我们现在实体标签一共有7种, 也就是N=7(注意N是所有可能的实体标签种类的集合), 也就是Qhidden={q0,q1,...,q6}(注意我们实体标签编号从0算起), 假设在t−1时刻任何一种实体标签都可以在t时刻转换为任何一种其他类型的实体标签, 则总共可能的转换的路径一共有N2种, 所以我们可以做一个N∗N的矩阵来表示所有可能的隐状态转移概率.
上图就是转移概率矩阵, 也就是transition matrix, 我们设这个矩阵为A矩阵, 则Aij表示矩阵中第i行第j列:
Aij=P(it+1=qj∣it=qi)qi∈Qhidden
上式表示指的是在t时刻实体标签为qi, 而在t+1时刻实体标签转换到qj的概率.
-
HMM的发射概率(emission probabilities):
我们之前提到了任意时刻观测ot只依赖于当前时刻的隐状态it, 也就是P(ot∣it), 也叫做发射概率, 指的是隐状态生成观测结果的过程.
设我们的字典里有M个字, Vobs.={v0,v1,...,vM−1}(注意这里下标从0算起, 所以最后的下标是M−1, 一共有M种观测), 则每种实体标签(隐状态)可以生成M种不同的汉字(也就是观测), 这一过程可以用一个发射概率矩阵来表示, 他的维度是N∗M.
上图就是发射概率矩阵, 也就是emission matrix, 我们设这个矩阵为B矩阵, 则Bjk表示矩阵中第j行第k列:
Bjk=P(ot=vk∣it=qj)qi∈Qhiddenvk∈Vobs.={v0,v1,...,vM−1}
上式表示指的是在t时刻由实体标签(隐状态)qj生成汉字(观测结果)vk的概率.
3. HMM的初始隐状态概率: 又称为initial probabilities, 我们通常用π来表示, 注意这里可不是圆周率:
π=P(i1=qi)qi∈Qhidden={q0,q1,...,qN−1}
上式指的是自然语言序列中第一个字o1的实体标记是qi的概率, 也就是初始隐状态概率.
3. 用HMM解决序列标注问题, HMM的学习算法;
我们现在已经了解了HMM的三大参数A, B, π, 假设我们已经通过建模学习, 学到了这些参数, 得到了模型的概率, 我们怎么使用这些参数来解决序列标注问题呢?
设目前在时刻t, 我们有当前时刻的观测到的一个汉字ot=vk(指的第t时刻观测到vk), 假设我们还知道在t−1时刻(前一时刻)对应的实体标记类型it−1=q^it−1(指的t−1时刻标记为q^it−1). 我们要做的仅仅是列举所有it可能的实体标记q^jt, 并求可以使下式输出值最大的那个实体类型qjt(也就是隐状态类型):
q^jt=argmaxq^jt∈QhiddenP(it=q^jt∣it−1=q^it−1)P(ot=vk∣it=q^jt)
将所有t时刻当前可取的实体标签带入下式中, 找出一个可以使下式取值最大的那个实体标签作为当前字的标注:
P(当前可取实体标签∣上一时刻实体标签)P(测到的汉字∣当前可取实体标签)
注意: 我们这里只讲到了怎样求第t时刻的最优标注, 但是在每一时刻进行这样的计算, 并不一定能保证最后能得出全局最优序列路径, 例如在第t时刻最优实体标签是qj, 但到了下一步, 由于从qj转移到其他某些实体标签的转移概率比较低, 而降低了经过qj的路径的整体概率, 所以到了下一时刻最优路径就有可能在第t时刻不经过qj了, 所以每一步的局部最优并不一定可以达成全局最优, 所以我们之后会用到维特比算法来找到全局最优的标注序列, 这个后面会有详细讲解.
生成模型与判别模型:
对于生成模型与判别模型, 因为篇幅问题, 暂不做讲述, 网上有很多资料.
这里稍稍回顾一下, 我们假设x为数据点, y为数据标记, 比如说逻辑回归属于典型的判别模型, 我们要计算P(y∣x)并形成一条分类边界, 而在HMM中, 我们计算的是P(x∣y), 而且要计算出所有y可取的类型, 并比较一下所有P(x∣y=yi)的结果, 并取可以使P(x∣y)最大的那个, 而得到预测结果.
HMM参数学习(监督学习):
我们今天要用HMM解决的是序列标注问题, 所以我们解决的是监督学习的问题. 也就是说我们现在有一些文本和与之对应的标注数据, 我们要训练一个HMM来拟合这些数据, 以便之后用这个模型进行数据标注任务, 最简单的方式是直接用极大似然估计来估计参数:
- 初始隐状态概率π的参数估计:
π^qi=count(o1)count(qi1)
上式指的是, 计算在第1时刻, 也就是文本中第一个字, qi1出现的次数占总第一个字o1观测次数的比例, qi1上标1指的是第1时刻, 下标i指的是第i种标签(隐状态), count是的是记录次数.
- 转移概率矩阵A的参数估计:
我们之前提到过transition matrix里面Aij(矩阵的第i行第j列)指的是在t时刻实体标签为qi, 而在t+1时刻实体标签转换到qj的概率, 则转移概率矩阵的参数估计相当与一个二元模型bigram, 也就是把所有的标注序列中每相邻的两个实体标签分成一组, 统计他们出现的概率:
A^ij=P(it+1=qj∣it=qi)=count(qi的次数)count(qi后面出现qj的次数)
- 发射概率矩阵B的参数估计:
我们提到过emission matrix中的Bjk(矩阵第j行第k列)指的是在t时刻由实体标签(隐状态)qj生成汉字(观测结果)vk的概率.
B^jk=P(ot=vk∣it=qj)=count(qj出现的次数)count(qj与vk同时出现的次数)
到此为止, 我们就可以遍历所有语料, 根据上面的方式得到模型的参数A, B, π的估计.
注意, 通过上面的计算过程, 我们可以得出HMM的参数(A,B,π)有以下特性:
i∑πqi=1
j∑Aij=j∑P(it+1=qj∣it=qi)=1
k∑Bjk=k∑P(ot=vk∣it=qj)=1
4. 维特比算法(Viterbi Algorithm)(HMM的预测算法).
维特比算法viterbi algorithm使用了动态规划算法来解决类似HMM和CRF的预测问题, 用维特比算法可以找到概率最大路径, 也就是最优路径, 在我们今天要解决的序列标注问题中, 就要通过维特比算法, 来找到文本所对应的最优的实体标注序列.
如果用一句话来概括维特比算法, 那就是:
在每一时刻, 计算当前时刻落在每种隐状态的最大概率, 并记录这个最大概率是从前一时刻哪一个隐状态转移过来的, 最后再从结尾回溯最大概率, 也就是最有可能的最优路径. 这话对于没有学过维特比算法的同学是无法理解的, 但是我觉得今天学完维特比算法之后再来看这句话, 可以加深记忆.
我们这里为了学习维特比方便, 所以转换一下标签:
-
Ai,jt−1,t, 是转移概率矩阵A中的第i行第j列(下标), 指的是在t−1时刻实体标签为qi, 而在t时刻实体标签转换到qj的概率.
-
Bjk是发射矩阵的第j行第k列, 指的是在第t时刻, 由隐状态qj生成观测vk的概率.
- 有了上面两点, 则q^j=AijBjk表示在t时刻的隐状态为qj的概率估计.
在这里我们直接以实例的方式来说明维特比算法的计算过程(注意我们在这里下标从0开始算起):
- 假设我们现在有所有可能的观测结果的集合Vobs.={v0,v1};
- 所有可能的隐状态的集合Qhidden={q0,q1,q2};
- 已经观测到的观测结果序列O=(o1=v0, o2=v1, o3=v0);
- 然后假设我们通过HMM建模并学习, 得到了模型所估计的参数(A,B,π), 注意下面的A,B矩阵按行求和为1;
- 我们要求出对应当前观测结果O的最有可能的隐状态序列I=(i0,i1,i2).
我们现在要初始化两个暂存表格, 来暂存我们在每一时刻的计算结果, 稍后我们会说明怎么使用这两个表, 下面我们看到T1表格和T2表格, 他们的规格都是num_hidden_states∗sequence_length, 这两个表格在每一时刻t都由3个方块组成, 3是所有可能隐状态的个数, 即∣Qhidden∣=3, 注意这里表格内填充的颜色无意义, 只有好看的作用.
计算过程:
- 首先我们有初始隐状态概率矩阵π, 和第1时刻的观测结果o1=v0, 则在第一时刻, 由隐状态生成观测结果的概率计算可以写成qjt=1=πjBjk.
我们现在说明T1,T2表格的用途: 如果T1,T2表格是i∗j的矩阵, 则矩阵中第j列指的是第j时刻, 第i行指的是第i种隐状态, T1[i, j]指的是在第j时刻, 落到隐状态i的最大可能的概率是多少(不要着急, 到了下一个时刻就会明白最大是什么意思), 而T2[i, j]记录的是这个最大可能的概率是从第j−1时刻(上一时刻)的哪一种隐状态i转移过来的, 也就是说我们记录的是最大可能的概率的转移路径.
我们现在将第一时刻的计算结果填入T1,T2表格, 注意在第0时刻的隐状态是由初始隐状态概率矩阵提供的, 而不是从上一时刻的隐状态转移过来的, 所以我们直接在T2表格上记为NAN(not a number)
- 我们现在来到第1时刻(时刻下标从0起算), 首先我们先计算T1[i=0,j=1](也就是第j=1时刻, 落到隐状态i=q0上的最大可能的概率是多少), 我们可以看出, 从上一时刻到当前时刻, 要想让当前时刻的隐状态为i1=q0, 则有3条路径可走, 分别是: (i0=q0,i1=q0), (i0=q1,i1=q0), (i0=q2,i1=q0),
我们在T1[i=0,j=1]的位置就是要算出, 这三条路径哪一条是最有可能的路径, 也就是取概率最大的一条, 这样的话, 计算公式为:
T1[0,1]=imax(P(i1=q0∣i0=qi)P(o1=v1∣i1=q0))=T1[qi,time_step=0]∗At−1=qi, t=q0∗Bi1=q0,o1=v1
上式最右边T1[qi,time_step=0]也就是T1[:, 0]的意思是在t−1时刻(也就是上一时刻), 每个隐状态对应的概率, 是长度为3的向量;
At−1=qi, t=q0是A矩阵的第i行第0列, 指的是在t−1时刻隐状态为qi, 而在t时刻隐状态为q0的概率, 一共有三种可能的路径, 所以也是长度为3的向量;
Bi1=q0,o1=v1是B矩阵的第0行第1列, 指的是隐状态q0生成观测v1的概率, 是一个数值.
通过查表计算, 我们算出:
T1[0,1]=max{0.10∗0.5∗0.5, 0.16∗0.3∗0.5, 0.28∗0.2∗0.5}=0.028
我们之前说过, 我们还要知道目前计算出来的这个最大可能的概率前一时刻的哪一种隐状态i转移过来的, 也就是我们要在T2[0,1]记录转移路径, 计算公式为:
T2[0,1]=argmax{0.10∗0.5∗0.5, 0.16∗0.3∗0.5, 0.28∗0.2∗0.5}=2
我们把计算结果填到表里, 注意在下图中, 红色的线表示最大的转移路径, 是从前一时刻的q2转移过来的.
- 接下来我们用同样的方式, 把表填完, 下面我们开始讲维特比算法是怎样通过这些暂存的概率和路径找到最优路径的:

最优路径有以下特性: 假设我们有一条最优路径在t时刻通过一个隐状态it, 那么这一路径从it到最优路径的终点iT相对于在这段距离里所有可能出现的路径里, 也必须是最优的. 否则从it到iT就会有更优的一条路径, 如果把他和从i1到it的路径(最优路径it之前的部分)连起来, 等于我们又有一条更优路径, 这是矛盾的.
利用这一特性, 我们只要按上面的步骤计算直到得出最后一步达到的最大概率的隐状态, 再确认最大概率是从前一步哪一个隐状态转移过来的, 然后从T2表格里面递推回溯直到第一时刻(也就是NAN的地方), 就可以找出最优路径了.
回溯的计算:
- 首先算出最后一步达到最大路径的隐状态, 也就是在T1表格的第3列求argmax:
i2=argmax T1[:, time_step=2]=2
- 之后我们通过T2表格向前追溯一步, 当前最大概率是从前一步哪个隐状态转移过来的:
i1=T2[i2=2, time_step=2]=2
- 我们到达了倒数第一步, 我们追溯最优路径是从哪个起始隐状态转移过来的:
i0=T2[i1=2, time_step=1]=2
- 至此我们得出了最有可能的隐状态序列:
I=(q2, q2, q2)
结论:
- 时间复杂度: 假设我们有N种隐状态, 在每个时刻之间, 一共可能的路径一共有N2种, 假设我们有T个时刻, 则维特比算法的时间复杂度为O(TN2).
- 在实际的预测计算当中, 为了防止计算结果下溢, 我们通常将乘法变为取对数之后的加法.
- 具体范例代码见视频讲解.