Computational Models for Social and Information Network Analysis

Tutorial 传送门

作者:

清华大学

  • 唐杰

微软亚洲研究院

  • Yuxiao Dong

摘要:
在本教程中,我们将系统性的介绍如何利用社会和信息网络进行挖掘和学习,涵盖的主题从个人到二元交互到团体再到信息空间。我们将从微信的真实例子开始我们的教程,来解释在线社交网络如何影响我们的现实世界。然后我们将全面介绍社会网络分析的历史和最新进展,包括用户分析、用户行为建模、社会关系和群体建模、结构上的影响和信息扩散的方法和算法。本教程的目的是为观众提供1)社会网络分析的图理论基础;2)我们将社会网络研究应用在包括腾讯微信和游戏、阿里巴巴、学堂在线、Aminer、微软学术等网站或移动应用的经验。最后,本教程中介绍的所有工作都保证使用开放代码,我们也将借此机会发布一个拥有2亿个节点和30亿条边的最大的开放学术图,用于社交网络分析。

History of social and information network analysis

Web 1.0 = Information Space

  • Google’s PageRank
  • Kleinberg’s HITS

Web 2.0 = Info Space + Users

  • Personalized recommendation
  • Collaborative Filtering

Web 3.0 = Social Web = Info. Space + Social Space
Computational Models for Social and Information Network Analysis

六度分隔理论(英语:Six Degrees of Separation)认为世界上任何互不相识的两人,只需要很少的中间人就能够建立起联系。哈佛大学心理学教授斯坦利·米尔格拉姆于1967年根据这个概念做过一次连锁信实验,尝试证明平均只需要6步就可以联系任何两个互不相识的人。

Weak Tie 弱连接: information diffusion through weak ties rather than srong ties.

邓巴数(英语:Dunbar’s number),也称150定律,指能与某个人维持紧密人际关系的人数上限,通常人们认为是150。这里的人际关系是指某个人知道其他人是谁并且了解那些人之间的关系。支持者认为超过这个人数上限的团队,需要更加严格的规则,法律以及强制性规范来维持稳定性和凝聚力。邓巴数并没有精确的数值,它处于100到230之间,而通常人们使用150。

结构洞是“社会网络中的某个或某些个体和有些个体发生直接联系,但与其他个体不发生直接联系,无直接联系或关系间断(disconnection)的现象,从网络整体看好像网络结构中出现了洞穴”。

HITS(Hyperlink-Induced Topic Search):是一种由Jon Kleinberg开发的对网页进行评分的链接分析 算法。
PageRank,又称网页排名、谷歌左侧排名、PR,是Google公司所使用的对其搜索引擎搜索结果中的网页进行排名的一种算法。

Small World—Watts-Strogatz (WS) model:
小世界网络模型是一类具有较短的平均路径长度又具有较高的聚类系数的网络的总称。

Albert-László Barabási 和Réka Albert为了解释幂律的产生机制,提出了无标度网络模型(BA模型)。BA模型具有两个特性,其一是增长性,所谓增长性是指网络规模是在不断的增大的,在研究的网络当中,网络的节点是不断的增加的;其二就是优先连接机制,这个特性是指网络当中不断产生的新的节点更倾向于和那些连接度较大的节点相连接。

社团检测
影响力最大化
边预测
网络演化
传播与影响(Diffusion and Influence)
社会影响分析(Social Influence Analysis)

网络表示学习