隐马尔科夫模型的理论--(1)

1.定义

有向图模型又分为,静态贝叶斯网络和动态贝叶斯网络, 动态贝叶斯网络再具体细分就是 隐马尔科夫模型 和 卡尔曼滤波器
无向图模型分为马尔科夫网络,马尔科夫网络分成,吉布斯/波尔兹曼机和条件随机场
隐马尔科夫模型的理论--(1)

隐马尔可夫模型(Hidden Markov Model,HMM)是关于时序的概率模型,它用来描述一个含有隐含未知参数的马尔可夫过程,即由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观测而产生随机序列的过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,HMM属于典型的生成式模型,各种参数定义如下,共有5要素:

  • N,隐藏状态集N={q1,...,qN}N=\{ q_1,...,q_N \} , 隐藏节点不能随意取,只能限定取包含在隐藏状态集中的符号。

  • M,观测集M={v1,...,vM}M=\{v_1,...,v_M\} , 观测节点不能随意取,只能限定取包含在观测状态集中的符号。

  • A,状态转移概率矩阵,这个就是其中一个概率分布。他是个矩阵,A=[aij]NNA=[a_{ij}]_{N*N} (N为隐藏状态集元素个数),其中aij=P(it+1it)a_{ij}=P(i_{t+1}|i_t) 即第i个隐状态节点,即从一个隐藏状态转移到另一个隐藏状态的转移概率。

  • B,观测概率矩阵,这个就是另一个概率分布。他是个矩阵, B=[bij]NNB=[b_{ij}]_{N*N} (N为隐藏状态集元素个数,M为观测集元素个数),其中 bij=P(otit)b_{ij}=P(o_{t}|i_t)oto_t即第i个观测节点, 即第i个隐状态节点,即隐藏状态到观测的概率(发射概率)。

  • π\pi,初始状态概率向量,在第一个隐状态节点,第一个隐状态节点的隐状态是N中的每一个的概率分别是多少,然后π\pi就是其概率分布。

隐马尔科夫模型由初始状态概率向量,状态转移概率矩阵A和观测概率矩阵矩阵B决定。
隐马尔科夫模型的两个假设:

(1)隐藏状态只依赖于前一时刻的隐藏状态,与其他时刻的隐藏状态无关。
(2)观测状态只依赖于该时刻的隐藏状态,与其他时刻的观测状态和隐藏状态无关。

隐马尔科夫模型的理论--(1)

如图,我的模型先去学习要确定以上5要素,之后在inference阶段的工作流程是:首先,隐状态节点iti_t是不能直接观测到的数据节点,oto_t才是能观测到的节点,并且注意箭头的指向表示了依赖生成条件关系,iti_t在A的指导下生成下一个隐状态节点it+1i_{t+1},并且iti_t在B的指导下生成依赖于该iti_t的观测节点oto_t, 并且我只能观测到序列o1,...,oio_1,...,o_i

2.隐马尔科夫模型的三个问题

(1)概率计算问题
给定模型λ=(A,B,π)\lambda=(A,B,\pi)和观测序列O=(o1,o2,...,oT)O=(o_1,o_2,...,o_T),计算在λ\lambda模型下观测序列O出现的概率P(Oλ)P(O|\lambda)

(2)学习问题
已知观测序列O=(o1,o2,...,oT)O=(o_1,o_2,...,o_T),估计模型的参数λ=(A,B,π)\lambda=(A,B,\pi),使得在该模型下观测序列概率P(Oλ)P(O|\lambda)最大,即用极大似然估计的方法估计参数。

(3)预测问题,也称为解码(decoding)问题。
已知模型P(Oλ)P(O|\lambda)和观测序列O=(o1,o2,...,oT)O=(o_1,o_2,...,o_T),求对给定观测序列条件概率P(IO)P(I|O)最大的状态序列i=(i1,i2,...,iT)i=(i_1,i_2,...,i_T),即给定观测序列,求最有可能的对应的状态序列。

3.例子

我们抛开教材上拗口的红球白球与盒子模型吧,来看一个简单的掷骰子的例子。
示例说明
假设我手里有三个不同的骰子。第一个骰子是我们平常见的骰子(称这个骰子为D6),6个面,每个面(1,2,3,4,5,6)出现的概率是1/6。第二个骰子是个四面体(称这个骰子为D4),每个面(1,2,3,4)出现的概率是1/4。第三个骰子有八个面(称这个骰子为D8),每个面(1,2,3,4,5,6,7,8)出现的概率是1/8。
隐马尔科夫模型的理论--(1)
假设我们开始掷骰子,我们先从三个骰子里挑一个,挑到每一个骰子的概率都是1/3。然后我们掷骰子,得到一个数字,1,2,3,4,5,6,7,8中的一个。不停的重复上述过程,我们会得到一串数字,每个数字都是1,2,3,4,5,6,7,8中的一个。
例如我们可能得到这么一串数字(掷骰子10次):1 6 3 5 2 7 3 5 2 4
这串数字叫做可见状态链(对应上面公式的观察到的结果为 Y)。但是在隐马尔可夫模型中,我们不仅仅有这么一串可见状态链,还有一串隐含状态链(对应上面公式的隐藏的为X)。
在这个例子里,这串隐含状态链就是你用的骰子的序列。比如,隐含状态链有可能是:D6 D8 D8 D6 D4 D8 D6 D6 D4 D8
一般来说,
HMM中说到的马尔可夫链其实是指隐含状态链,隐含状态(骰子)之间存在转换概率(transition probability)。
在我们这个例子里,D6的下一个状态是D4,D6,D8的概率都是1/3。D4的下一个状态是D4,D6,D8的转换概率也都一样是1/3。这样设定是为了最开始容易说清楚,但是我们其实是可以随意设定转换概率的。比如,我们可以这样定义,D6后面不能接D4,D6后面是D6的概率是0.9,是D8的概率是0.1,这样就是一个新的HMM,一般情况权重设定也确实是不一样的。
同样的,
尽管可见状态之间没有转换概率,但是隐含状态和可见状态之间有一个概率叫做输出概率(emission probability)。
就我们的例子来说,六面骰(D6)产生1的输出概率是1/6。产生2,3,4,5,6的概率也都是1/6。我们同样可以对输出概率进行其他定义。比如,我有一个被赌场动过手脚的六面骰子,掷出来是1的概率更大,是1/2,掷出来是2,3,4,5,6的概率是1/10。
隐马尔科夫模型的理论--(1)
而三个骰子之间也是可以相互转换的,其转换关系示意图如下所示。
隐马尔科夫模型的理论--(1)

其实对于HMM来说,如果提前知道所有隐含状态之间的转换概率和所有隐含状态到所有可见状态之间的输出概率,做模拟是相当容易的。
但是应用HMM模型时候呢,往往是缺失了一部分信息的,有时候你知道骰子有几种,每种骰子是什么,但是不知道掷出来的骰子序列;有时候你只是看到了很多次掷骰子的结果,剩下的什么都不知道。
如果应用算法去估计这些缺失的信息,就成了一个很重要的问题。这应该如何做呢?下面就来说明。

3.1.描述问题

这里就要顺带着说明与HMM模型相关的算法了,算法分为三类,分别对应着解决三种问题:

3.1.1.评估问题

知道骰子有几种(隐含状态数量),每种骰子是什么(转换概率),根据掷骰子掷出的结果(可见状态链),我想知道掷出这个结果的概率

这个问题看似意义不大,因为你掷出来的结果很多时候都对应了一个比较大的概率,问这个问题的目的呢,其实是检测观察到的结果和已知的模型是否吻合。如果很多次结果都对应了比较小的概率,那么就说明我们已知的模型很有可能是错的,有人偷偷把我们的骰子给换了。通常利用前向算法,分别计算每个产生给定观测序列的概率,然后从中选出最优的HMM模型。

3.1.2.解码问题

知道骰子有几种(隐含状态数量),隐藏状态是什么不重要,每种骰子是什么(转换概率),根据掷骰子掷出的结果(可见状态链),我想知道每次掷出来的都是哪种骰子(隐含状态链),这几种隐含状态的编号的序列。

3.1.3.学习问题

知道骰子有几种(隐含状态数量),不知道每种骰子是什么(转换概率),观测到很多次掷骰子的结果(可见状态链),我想反推出每种骰子是什么(转换概率)。

这个问题很重要,因为这是最常见的情况。很多时候我们只有可见结果,不知道HMM模型里的参数,我们需要从可见结果估计出这些参数,这是建模的一个必要步骤,通常使用Baum-Welch算法解决。

3.2.解决方案

3.2.1.计算结果概率

知道骰子有几种,每种骰子是什么,每次掷的都是什么骰子,根据掷骰子掷出的结果,求产生这个结果的概率。
已知条件:
转移概率:1/3
发射概率:D6:1/6,D4:1/4,D8:1/8,
隐马尔科夫模型的理论--(1)
解法无非就是概率相乘:
隐马尔科夫模型的理论--(1)
隐马尔科夫模型的理论--(1)
隐马尔科夫模型的理论--(1)

3.2.2.计算隐含状态概率

计算不可见的隐含状态概率,**骰子序列,这里有两种解法。
第一种解法,解最大似然路径问题
举个栗子:
我知道我有三个骰子,六面骰,四面骰,八面骰。我也知道我掷了十次的结果(1 6 3 5 2 7 3 5 2 4),我不知道每次用了那种骰子,我想知道最有可能的骰子序列。
其实最简单而暴力的方法就是穷举所有可能的骰子序列,然后依照第零个问题的解法把每个序列对应的概率算出来。然后我们从里面把对应最大概率的序列挑出来就行了。如果马尔可夫链不长,当然可行。如果长的话,穷举的数量太大,就很难完成了。
第二种解法,维特比算法(Viterbi algorithm)
维特比(Viterbi)算法实际是用动态规划解隐马尔可夫模型预测问题,即用动态规划(dynamic programming)求概率最大路径(最优路径)。这时一条路径对应着一个状态序列。
请不太理解动态规划算法的同学查看我之前的动态规划算法博文,现在我们来看看如何利用Vertibi算法计算骰子出现的概率。

转移概率:1/3
发射概率:D6:1/6,D4:1/4,D8:1/8,

还是举个栗子:
首先,如果我们只掷一次骰子:
隐马尔科夫模型的理论--(1)
看到结果为1。对应的最大概率骰子序列就是D4,因为D4产生1的概率是1/4,高于1/6和1/8。
把这个情况拓展,我们掷两次骰子:
隐马尔科夫模型的理论--(1)
结果为1,6。这时问题变得复杂起来,我们要计算三个值,分别是第二个骰子是D6,D4,D8的最大概率。显然,要取到最大概率,第一个骰子必须为D4。这时,第二个骰子取到D6的最大概率是:
隐马尔科夫模型的理论--(1)
隐马尔科夫模型的理论--(1)
隐马尔科夫模型的理论--(1)
同样的,我们可以计算第二个骰子是D4或D8时的最大概率。我们发现,第二个骰子取到D6的概率最大。而使这个概率最大时,第一个骰子为D4。所以最大概率骰子序列就是D4 D6。
继续拓展,我们掷三次骰子:
隐马尔科夫模型的理论--(1)
同样,我们计算第三个骰子分别是D6,D4,D8的最大概率。我们再次发现,要取到最大概率,第二个骰子必须为D6。这时,第三个骰子取到D4的最大概率是
隐马尔科夫模型的理论--(1)
隐马尔科夫模型的理论--(1)
同上,我们可以计算第三个骰子是D6或D8时的最大概率。我们发现,第三个骰子取到D4的概率最大。而使这个概率最大时,第二个骰子为D6,第一个骰子为D4。所以最大概率骰子序列就是D4 D6 D4。