版权声明:本文为原创文章,未经博主允许不得用于商业用途。
在扩展式博弈中,有些时候博弈的信息是不完全的:
- 玩家不知道其他玩家之前的决策
- 玩家不记得自己之前的决策
此时使用虚线连接这些信息集相同的决策点。
基本概念
- 非完全信息扩展式博弈表示为:G={N,J,P,I,{ui}}
- 信息集:I={I1,I2,...,IN}为所有玩家的信息集,Ii={Ii1,Ii2,...,Ini}为玩家i的所有决策节点根据信息的划分。
- 信息集Ii中的每个元素为到达该玩家某一决策点或多个决策节点,使用从根节点到此节点的路径表示。
- 在完全信息博弈中每个元素只包含一个节点。
- 显然信息集某元素中的多个路径下候选决策集是相同的,记作A(Iij)=A(h)=A(h′),h,h′∈Iij,因此才无法区分。
-
P(Iij)为在该处做出决策的玩家。
在此博弈中:
玩家1无法分辨玩家2所做决策,因此其信息集为I1={ϕ,{LA,LB}},其中LA和LB具有相同的候选决策集{a,b}
玩家2为完美回忆的,其信息集为I2={L}
- 完美回忆(Perfect Recall):如果玩家i记住自己之前的所有决策则是完美回忆的。
- 如果所有玩家都是完美回忆的,则该博弈是完美回忆的。
- 纯策略(Pure Strategies):玩家i的纯策略定义为ai∈A(Ii1)×A(Ii2)×...×A(Iim)
- 混合策略(Mixed Strategies):作用在该玩家纯策略上的概率分布函数。
-
行为策略(Behavioral Strategies):玩家i的一系列的概率分布函数βi={βi1(Ii1),βi2(Ii2),...,βini(Iini)},其中βik为作用在A(Iik)决策集上的概率分布函数,其中P(Iik)=i
- 从概率的角度,在行为策略中每次决策之间是相互独立的,而混合策略则可能不是相互独立的。
- 在完全信息博弈中,行为策略和混合策略可以相互转化,混合策略可以看作行为策略的联合分布函数。
- 库恩定理(Kuhn Theorem):在完美回忆的有穷扩展式博弈中,行为策略和混合策略可以相互转化,且采取行为策略和混合策略的结果是等价的。
- 子博弈:具有独立信息集的子树,即子树的任意节点不能和外部节点共用信息集,直观表示就是没有从子树内部到外部的虚线。
- 定理:完美回忆博弈至少有一个子博弈完美均衡(后向归纳)
- 信念(Belief):在非完全信息的扩展式博弈中的信念(μ)是关于信息集的一组概率分布函数,如果信息集只有一个节点则概率为1。
- 贝叶斯一致性:信念符合贝叶斯定律。
- 一致性:信念是概率的极限。
- 评估(Assessment):评估记作(β,μ),可以评估一组信念和行为的一致性和贝叶斯一致性。且一致性可以推出贝叶斯一致性。
- 序惯理性(Sequential Rational):序列理性是建立在信念上的,即对于每个信息集上的信念,玩家i都做出最优决策。∀Iij,ui(βi,β−i∣Iij,μ)≥ui(βi′,β−i∣Iij,μ)
-
(β,μ)是序贯均衡的如果其满足一致性和序贯理性。
- 完美回忆的有穷扩展式博弈一定有序惯均衡
- 序贯均衡中的行为策略是SPE
例题1

在此博弈中,I1={(ϕ,L)},I2={R},A(I11)={L,R},A(I21)={U,D}
因此纯策略有:{LU,LD,RU,RD},且收益为u={(1,0),(1,0),(5,1),(2,2)},显然R为Player1的严格占优策略,因此纳什均衡为(R,D)
如果使用行为策略,则设Player1的行为策略为[L,p;R,1−p],则收益期望为:U1=p2+p(1−p)×100+(1−p)×2,当p=49/99时取得最大值112599≃26.3
例题2

求序贯均衡
假设行为策略为β=(β1,β2)=(p,r;q),其中p,r,q为选择A,E,C的概率。
则由贝叶斯公式,Player1在{AC,AD}处关于AC的信念为μ=q。
- 如果玩家2行为策略中,q=0,则μ=0,玩家1将选择DF,则此时玩家2收益为0,非最优策略。
- 如果q=1,则μ=1,玩家1将选择CE,同样不是最优策略。
- 如果q∈(0,1),则玩家1收益为u1=16μr+16(1−μ)(1−r)=16−16q−16r(1−2q),且保证玩家2选择AC和AD的纯策略收益相同,即16(1−r)=16r⇒r=1/2。
- 当q>1/2时,u1为r的增函数,因此r=1时收益最大。
- 当q<1/2时,u1为r的减函数,因此r=0时收益最大。
-
q=1/2时,r∈[0,1],即只有此时可以满足r=1/2,因此子博弈收益为(8,8)占优,因此p=1。