介绍
网络是复杂系统的基本工具,即使有的网络是稀疏的,依然会有的边趋向于出现在小的聚集结构中,这种聚集结构可以解释为局部演化过程。例如社会网络中聚集结构的出现是源于三角形,其中两个人共有一个朋友,则更可能成为朋友,形成闭三角。聚集系数是度量网络中的三角形数量,定义为三节点中闭合的比例。然而聚集系数是有限制的,只涉及三角形,更多节点的高阶结构也是重要的,四节点就反映词组和蛋白质网络的结构,但是高阶结构的聚集系数是没有的。这里根据测量高阶结构中闭合的比例提出高阶聚集系数。
首先考虑二节点团,找到与之相连的第三条边和节点,原来的聚集系数就是这种三节点结构中闭合的比例C=6|K3||W|(1)
相应可以定义局部聚集系数C(u)=2|K3(u)||W(u)|(2)
平均聚集系数C¯¯¯¯=1|V˜|∑u∈V˜C(u)(3)
类似的,由l节点团扩展到l+1节点,则Cl=(l2+l)|Kl+1||Wl|(4)
局部聚集系数Cl(u)=l|Kl+1(u)||Wl(u)|(5)
平均聚集系数C¯¯¯¯l=1|V˜l|∑u∈V˜lCl(u)(6)
|Wl(u)|=|Kl(u)|(du−l+1)(7)
其中
duS 节点
u的度,替换公式
(5)则有
Cl(u)=l|Kl+1(u)|(du−l+1)|Kl(u)|(8)
通过枚举所有
l+1和
l节点的团,能计算局部
l th−order的聚集系数,复杂度取决于枚举的时间,使用Chiba和Nishizeki算法,复杂度是
O(lal−2m),其中
m是边数,
a是一种边密度。
a可能与
m−−√一样大,若
l为常数,则是多项式时间,在至少
l节点上确定是否有一个团是
NPC问题。对于全局聚集系数,则有
|Wl|=∑u∈V|Wl(u)|。
局部聚集系数可以解释成从所有以节点
u为中心的wedge中随机挑选的一个是闭合的概率
Cl(u)=P[w∈Kl+1(u)](10)
定义1-hop邻居图
N1(u),节点
u周围相邻的节点组成
N1(u)的节点,原来的这些节点之间的连边组成
N1(u)的边。于是公式
(8)为
l|Kl[N1(U)]|(du−l+1)|Kl−1[N1(u)]|(11)
其中
Kk[N1(u)]记为
N1(u)中有
k节点团的个数。如果从
N1(u)随机选
l−1节点团,然后再从剩下的点选一个节点
v,这
l个点组成
l节点团的概率就是
Cl(u)=P[K∪{v}∈Kl[N1(u)]](12) Cl−1(u)⋅Cl(u)是
l−1节点团和两个随机挑选节点组成
l+1节点团的概率,则
∏lj=2Cj(u)=|Kl[N1(u)]|(dul)(13) 
对于任意固定
l>3,
0≤Cl(u)≤C2(u)−−−−−√(14)
1.存在有限图
G使下界成立,当
C2(u)∈[0,l−2l−1]。
2.存在有限图
G使上界成立,当
C2(u)∈[0,1]。
0≤Cl(u)是显然的,当
N1(u)如上图2所示时,
C2(u)=l−2l−1,通过删去一些边可使范围在
[0,l−2l−1]。定义
δl[N1(u)]=|Kl[N1(u)]|(dul)(15)记为
N1(u)的
l−clique密度,由文献中的定理则有
δl[N1(u)]≤[δl−1[N1(u)]]l/(l−1)
δ[N1(u)]≤[δ2[N1(u)]](l−1)/2
再由公式
(8)知
Cl(u)≤[δl−1[N1(u)]]1l−1≤δ2[N1(u)]−−−−−−−−√=C2(u)−−−−−√
若
N1(u)由
c个节点的
clique和
b个孤立节点组成,当
l=2时有
Cl(u)=(c2)(c+b2)=(c−1)c(c+b−1)(c+b)→(cc+b)2
当
3≤l≤c时有
Cl(u)=l(cl)(c+b−l+1)(cl−1)=c−l+1c+b−l+1→cc+b
当
du→∞时有
C2(u)∈[0,1],且
Cl(u)→C2(u)−−−−−√。
现在来看高阶聚类系数在随机图模型的情况,其中每条边都有独立的概率
p,为了使图中至少有一个
l−wedge,这里假设
l比较小,设
p和
n都比较大,则对于任意
ϵ>0,clique的节点数量小于
(2+ϵ)log n/log(1/p)。在
Gn,p模型中,当且仅当
l−clique中有
l−1条边出现并有另外一节点与之相邻时,则形成
l−wedge,这
l−1条边的存在概率与
pl−1有关。
令
G为随机图模型
Gn,p,对于常数
l,
(1) EG[Cl]=pl−1 (2) EG[Cl(u)|Wl(u)>0]=pl−1 (3) EG[C¯¯¯¯l]=pl−1
E[Cl]=EG[EWl[Cl|Wl]] =E[EWl[1|Wl|∑w∈WlP[w is closed]]] =EG[EWl[1|Wl|∑w∈Wlpl−1]] =EG[pl−1] =pl−1