Higher-order clustering in networks摘要

介绍

  网络是复杂系统的基本工具,即使有的网络是稀疏的,依然会有的边趋向于出现在小的聚集结构中,这种聚集结构可以解释为局部演化过程。例如社会网络中聚集结构的出现是源于三角形,其中两个人共有一个朋友,则更可能成为朋友,形成闭三角。聚集系数是度量网络中的三角形数量,定义为三节点中闭合的比例。然而聚集系数是有限制的,只涉及三角形,更多节点的高阶结构也是重要的,四节点就反映词组和蛋白质网络的结构,但是高阶结构的聚集系数是没有的。这里根据测量高阶结构中闭合的比例提出高阶聚集系数。
  首先考虑二节点团,找到与之相连的第三条边和节点,原来的聚集系数就是这种三节点结构中闭合的比例(1)C=6|K3||W|
相应可以定义局部聚集系数(2)C(u)=2|K3(u)||W(u)|
平均聚集系数(3)C¯=1|V~|uV~C(u)
类似的,由l节点团扩展到l+1节点,则(4)Cl=(l2+l)|Kl+1||Wl|
局部聚集系数(5)Cl(u)=l|Kl+1(u)||Wl(u)|
平均聚集系数(6)C¯l=1|V~l|uV~lCl(u)

(7)|Wl(u)|=|Kl(u)|(dul+1)

其中duS 节点u的度,替换公式(5)则有
(8)Cl(u)=l|Kl+1(u)|(dul+1)|Kl(u)|

通过枚举所有l+1l节点的团,能计算局部l thorder的聚集系数,复杂度取决于枚举的时间,使用Chiba和Nishizeki算法,复杂度是O(lal2m),其中m是边数,a是一种边密度。a可能与m一样大,若l为常数,则是多项式时间,在至少l节点上确定是否有一个团是NPC问题。对于全局聚集系数,则有|Wl|=uV|Wl(u)|
局部聚集系数可以解释成从所有以节点u为中心的wedge中随机挑选的一个是闭合的概率(10)Cl(u)=P[wKl+1(u)]
定义1-hop邻居图N1(u),节点u周围相邻的节点组成N1(u)的节点,原来的这些节点之间的连边组成N1(u)的边。于是公式(8)(11)l|Kl[N1(U)]|(dul+1)|Kl1[N1(u)]|
其中Kk[N1(u)]记为N1(u)中有k节点团的个数。如果从N1(u)随机选l1节点团,然后再从剩下的点选一个节点v,这l个点组成l节点团的概率就是(12)Cl(u)=P[K{v}Kl[N1(u)]]
Cl1(u)Cl(u)l1节点团和两个随机挑选节点组成l+1节点团的概率,则(13)j=2lCj(u)=|Kl[N1(u)]|(ldu)
Higher-order clustering in networks摘要
  对于任意固定l>3(14)0Cl(u)C2(u)
1.存在有限图G使下界成立,当C2(u)[0,l2l1]
2.存在有限图G使上界成立,当C2(u)[0,1]
  0Cl(u)是显然的,当N1(u)如上图2所示时,C2(u)=l2l1,通过删去一些边可使范围在[0,l2l1]。定义(15)δl[N1(u)]=|Kl[N1(u)]|(ldu)记为N1(u)lclique密度,由文献中的定理则有
δl[N1(u)][δl1[N1(u)]]l/(l1)

δ[N1(u)][δ2[N1(u)]](l1)/2

再由公式(8)
Cl(u)[δl1[N1(u)]]1l1δ2[N1(u)]=C2(u)

N1(u)c个节点的cliqueb个孤立节点组成,当l=2时有
Cl(u)=(2c)(2c+b)=(c1)c(c+b1)(c+b)(cc+b)2

3lc时有
Cl(u)=l(lc)(c+bl+1)(l1c)=cl+1c+bl+1cc+b

du时有C2(u)[0,1],且Cl(u)C2(u)
  现在来看高阶聚类系数在随机图模型的情况,其中每条边都有独立的概率p,为了使图中至少有一个lwedge,这里假设l比较小,设pn都比较大,则对于任意ϵ>0,clique的节点数量小于(2+ϵ)log n/log(1/p)。在Gn,p模型中,当且仅当lclique中有l1条边出现并有另外一节点与之相邻时,则形成lwedge,这l1条边的存在概率与pl1有关。
  令G为随机图模型Gn,p,对于常数l
(1) EG[Cl]=pl1
(2) EG[Cl(u)|Wl(u)>0]=pl1
(3) EG[C¯l]=pl1
  E[Cl]=EG[EWl[Cl|Wl]]         =E[EWl[1|Wl|wWlP[w is closed]]]         =EG[EWl[1|Wl|wWlpl1]]         =EG[pl1]         =pl1