参考资料：

Li, Yuchen, Ju Fan, Dongxiang Zhang, and Kian-Lee Tan. “Discovering your selling points: Personalized social influential tags exploration.” In Proceedings of the 2017 ACM International Conference on Management of Data, pp. 619-634. ACM, 2017.

Borgs, Christian, Michael Brautbar, Jennifer T. Chayes, and Brendan Lucier. “Influence maximization in social networks: Towards an optimal algorithmic solution.” CoRR, abs/1212.0884 (2012).

Kempe, David, Jon Kleinberg, and Éva Tardos. “Maximizing the spread of influence through a social network.” In Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 137-146. ACM, 2003.

1. Motivation & Application

文中定义了基于社交网络（Social Network, SN）的一种新操作：Personalized Social Influence Exploration (PITEX)。即对于特定用户而言，查询其能够达到最大影响力的标签集（Tag Set）。此操作在SN普遍的今天，具有很多潜在的用途：

领导人竞选时需要利用社交网络（SN）分析了解其卖点。例如下图所示，每个候选人可以通过发送带有特定标签集（Tag Set）的tweet借由其follower向整个社交网络传播影响。候选人可以通过分析各个标签集造成的影响差异决定其政治立场以及演讲内容等等。
社交媒体营销。即通过分析产品特征影响力确定营销策略。
科研人员希望找到对学术界最具贡献的方向。

2. Problem Definition & Notation &Hardness

常用的Notation如下表所示：
[论文阅读] Discovering Your Selling Points: Personalized Social Influential Tags Exploration

简单地说，问题输入是一个社交网络（SN）的有向图结构 $G$ ，基于主题（topic, $z$ ）的节点 $v_{1}$ 对节点 $v_{2}$ 影响力 $p (e | z)$ （ $e$ 的起点为 $v_{1}$ ，终点为 $v_{2}$ ），以及相应主题 $z$ 包含某一标签集 $w$ 的概率 $p (w | z)$ 。应用于tweet数据中， $p (e | z)$ 表示用户 $v_{1}$ 发表了关于主题 $z$ 的推特后，对follower $v_{2}$ 的影响概率（包括转发、接受观点等）；而 $p (w | z)$ 则是任意用户发表主题 $z$ 相关的推特，会带有相应#hashtag $w$ 的概率。PITEX问题初始输入的一个例子如下图所示：
[论文阅读] Discovering Your Selling Points: Personalized Social Influential Tags Exploration

基于上诉输入，我们可以估计用户 $u$ 使用标签集 $W$ 的影响力 $E [I (u | W)]$ 。首先计算各个节点间的影响概率：
[论文阅读] Discovering Your Selling Points: Personalized Social Influential Tags Exploration

基于上诉影响概率，再采用独立传播（independent cascade IC）模型，我们可以估计用户 $u$ 使用标签集 $W$ 的影响力。在IC模型中，每个节点具有**以及未**两种状态，每一步新**的节点会基于影响概率 $p (e | W)$ **其未被**的相邻节点，直到没有节点再被**。初始状态时**初始节点 $u$ ，我们使用 $I (u | W)$ 表示结束时被**的节点数，并定义影响力为其期望值 $E [I (u | W)]$ 。

综上，我们引入问题的正式定义：(Personalized Social Influential Tags Exploration (PITEX)) Given a social network $G$ , a PITEX query consists of a target user $u$ who is initially activated and a number $k$ , and it aims to find a $k$ -size tag set $W$ that maximizes $u$ ’s expected influence spread. 即找到对于用户 $u$ ，找到大小不超过 $k$ ，影响力最大的标签集 $W^{*}$ ，使得影响力最大： $W^{*} = \arg max_{| W | \leq k} E [I (u | W)]$

问题难度是NP-hard to approximate，因为包括一个subset selection问题，和一个基于概率估计影响力问题。

3. Straightforward Solution

一个最简单直接的解决方案就是遍历每一个可能标签子集 $W$ ，估计其影响力 $E [I (u | W)]$ ，然后选取影响力最大的标签子集 $W^{*}$ 。可以看到对应于原问题中的两个部分（subset selection，influence estimation），解决方案中包括遍历子集（enumeration）以及影响力估计两个部分，后续分别对这两个部分做优化。

4. Optimization about Enumeration: Best-Effort Exploration

遍历所有子集的复杂度是指数级的，所以需要一种有效的剪枝手段。Best-Effort Exploration通过计算包含某一标签子集 $W$ 的任意标签子集 $W^{'} s . t . W \subset W^{'}$ 的影响概率上界 $p^{+} (e | W), s . t . p^{+} (e | W) \geq p (e | W^{'}) \forall W^{'}$ ，得到包含某一标签子集 $W$ 的任意标签子集 $W^{'} s . t . W \subset W^{'}$ 的影响力上界。若所有包含 $W$ 的标签子集的影响力都小于其影响力上界小于当前最大值，则无需遍历所有包含 $W$ 的标签子集。关于计算影响概率上界 $p^{+} (e | W)$ 的LEMMA如下：
[论文阅读] Discovering Your Selling Points: Personalized Social Influential Tags Exploration

5. Optimization about Influence Estimation

直接计算概率的影响力是#P-hardness，过于expensive。故本文采用基于采样的算法对影响力进行估算。基于采样的算法首先计算为了达到某种要求（例如错误率小于 $ϵ$ 的概率至少是 $1 - δ^{- 1} (\begin{matrix} | Ω | \\ k \end{matrix})^{- 1}$ ）所需要的采样数 $θ_{W}$ ，然后基于生成的样本实例，估计在给定概率图 $G = (V, E, p (e | W))$ 中节点 $u$ 的影响力。

5.1. Existing State-of-Art Sampling Strategies

已有的state-of-art算法中包括Monte Carlo Sampling (MC)和Reverse Reachable Set Sampling (RR Set)。详细内容请参考相关论文：

Borgs, Christian, Michael Brautbar, Jennifer T. Chayes, and Brendan Lucier. “Influence maximization in social networks: Towards an optimal algorithmic solution.” CoRR, abs/1212.0884 (2012).

后文的改进大多基于RR set的采样算法，这里做简单介绍：对于特定节点 $u$ 和标签集 $W$ ，通过去除所有 $p (e | W) = 0$ 的边，可以得到所有可能被 $u, W$ 影响的节点集 $R_{W} (u)$ 。采样算法在生成每个样本实例 $g_{i}$ 的过程中，首先从 $R_{W} (u)$ 中以相同概率选取一个节点 $v_{i} \in R_{W} (u)$ ，然后以 $1 - p (e | W)$ 的概率去除每一条边，生成一个 $G$ 的子图 $g_{i}$ 。使用 $1 [u \to v_{i}] = 1$ 表示子图中 $u$ 可以到达 $v_{i}$ ，则节点 $u$ 使用标签集 $W$ 的影响力估计为 $E [I (u | W)] = \sum_{i = 1}^{θ_{W}} 1 [u \to v_{i}] \cdot | R_{W} (u) | / θ_{W}$ 。关于 $θ_{W}$ 计算的LEMMA如下：
[论文阅读] Discovering Your Selling Points: Personalized Social Influential Tags Exploration

5.2. Lazy Propagation Sampling

上诉传统采样算法中需要对图中的每条边进行若干次的伯努利分布采样，计算其是否保留 $c (e) \sim p (e | W)$ ，其中 $c (e)$ 为随机生成的 $0 - 1$ 随机数。实际使用的社交网络（SN）中， $p (e | W)$ 往往是稀疏的（即大多数情况 $p (e | W)$ 较小）。而在 $p (e | W)$ 较小的情况下，大多数采样结果并不会**该条边，相应的随机数生成计算显得并不必要。

简单的说，此部分优化是基于概率 $p$ 较低时，计算几何分布（geometric distribution）的消耗低于计算伯努利分布的消耗。具体地，Lazy Propagation Sampling通过采样若干次的几何分布，模拟多次伯努利分布采样的结果。几何分布是计算 $n$ 次伯努利采样中前 $k - 1$ 次失败，第 $k$ 次成功的概率。经过若干次的几何分布采样，可以得到在 $n$ 次伯努利采样中，该边在哪几次采样中被**，从而模拟了 $n$ 次伯努利分布采样的结果。

5.3. Offline Index-Based Influence Estimation

上诉在线算法中，对于每次 $E [I (u | W)]$ 的估计都需要生成 $θ_{W}$ 个样本实例。这对于在线查询来说消耗过大，不能满足即时查询的需要。offline index-based的算法通过线下构建索引的方式，将被所有 $u, W$ 组合共用的操作提前于线下进行，并存储中间结果（Index）；线上查询时接续剩余计算，得到查询结果，从而缩减了线上查询的时长。

5.3.1. RR-Graph Index Structure

此部分实际是RR Set算法应用于非确定（static）概率图中的变形，RR Set的详细内容请参考相关论文：

Borgs, Christian, Michael Brautbar, Jennifer T. Chayes, and Brendan Lucier. “Influence maximization in social networks: Towards an optimal algorithmic solution.” CoRR, abs/1212.0884 (2012).

注意到在RR online sampling算法中，每次采样实例的终点 $v_{i}$ 是随机采样的，且可以与起点 $u$ 无关（ $R_{W} (u)$ 的存在更多是出于剪枝减少冗余计算的目的）。在不给定起点 $u$ 的情况下，我们仍然可以随机均匀采样 $v_{i}$ ，然后生成相应的子图 $g_{i}$ ；再对特定 $u$ 计算其在每个子图 $g_{i}$ 中能否到达终点 $v_{i}$ ，进而估计影响力。RR set算法利用上诉思想，可以同时估计static概率图中所有节点的影响力。

不同于经典的影响力估计问题，PITEX中的 $p (e)$ 是随标签集 $W$ 变化的，所以不同的标签集对对应于不同的概率图。本文通过基于概率上界 $max_{W} p (e | W)$ 采样，然后线上验证的方法，使得采样实例子图对不同的标签集共享。

综上，RR-Graph算法的线下构建Index过程如下（基于 $p (e) = max_{W} p (e | W)$ 删边，然后保留所有可能到达终点 $v$ 的节点 $V (v)$ 与边 $E (v)$ ，以及相应边上的随机数 $c (e)$ ）：

Generate sample graphs $G_{v}^{R R} = (V (v), E (v))$ starting from uniformly sampled vertex $v$
Generate a random number $c (e) \in [0, 1]$ for all $e \in E$ ;
$V (v) \subseteq V$ contains verticesthat reach $v$ in $G$ after removing all edges such that $max_{W} p (e | W) < c (e)$ ;
$E (v) \subseteq E$ contains edges with both ends in $V (v)$ and associated with $c (e)$ .

下图是几个 $G_{v}^{R R}$ 子图的例子，其中原图 $G$ 与问题定义中的输入例子相同， $max_{W} p (e | W) = max_{z} p (e | z)$ ，阴影节点为随机采样终点 $v$ ：
[论文阅读] Discovering Your Selling Points: Personalized Social Influential Tags Exploration

由于是基于概率上界 $max_{W} p (e | W)$ 采样，算法无法如RR Set一样直接通过包含 $u$ 的子图数估计 $u$ 的影响力。在线上计算过程中，对于特定的 $u, W$ ，算法需要验证在每个子图 $G_{v}^{R R}$ 中 $u$ 能否到达 $v$ ，进而估计影响力。算法定义 ” $u$ 能够在 $G_{v}^{R R}$ 中到达 $v$ “ 如下：
[论文阅读] Discovering Your Selling Points: Personalized Social Influential Tags Exploration

文中推导了RR-Graph算法所需要的采样数 $θ$ ，结论如下：
[论文阅读] Discovering Your Selling Points: Personalized Social Influential Tags Exploration

对比于原在线采样算法，基于RR-Graph Index的线下算法不需要生成随机数，子图的大小通常也远小于原图，从而减少了线上操作的时间。

5.3.2. Effective Pruning Techniques

在RR-Graph Index-based算法中，在线部分需要遍历每个子图 $G_{v}^{R R}$ 验证 $u$ 能否到达终点 $v$ 。考虑 $p (e | W)$ 大多数情况下远小于 $max_{W} p (e | W)$ ，在线验证到达性的部分仍然包括许多冗余操作。

本文通过验证子图的 $u - v$ 割（cut）的连通性进行剪枝。具体地，寻找一个 $u - v$ 之间的割，若割中的所有边都被删除（即 $p (e | W) < c (e)$ ），则 $u$ 必然无法到达 $v$ ，从而无需遍历整个子图。

割的选择构建直接影响上诉剪枝的有效性，论文作者直觉上认为 $p (e)$ 与 $c (e)$ 相近的时候更有可能有效剪枝。但按照某种标准寻找割的过程仍然需要遍历图（与出发点不符）。本文直接比较 $u$ 的出边和 $v$ 的入边分别构成的两个割，选取其中更可能进行有效剪枝的割进行验证剪枝。

5.3.3. RR-Graphs Delay Materialization

上诉RR-Graphs Index需要存储大量的 $G_{v}^{R R}$ 子图，对于 $| G |$ , $| W |$ 较大的情况，存储index的时间与空间过大。Delay Materialization不存储子图，而是存储包含各个节点 $u$ 的子图数；在线操作过程中对子图重新生成；从而减少了存储子图的时间与空间。

为了maintain theoretical gaurantees，需要保证在线生成的子图和直接保存的线下子图同分布（包括包含 $u$ 的子图的数量，以及随机数 $c (e)$ 的分布）。具体算法如下：
[论文阅读] Discovering Your Selling Points: Personalized Social Influential Tags Exploration

6. Experiment Results

首先验证算法的收敛性，发现文中最终优化结果，线下RR-Graph系列，的收敛性质与MC相近：
[论文阅读] Discovering Your Selling Points: Personalized Social Influential Tags Exploration

算法的准确性是通过理论保证，大部分优化针对在线查询的平均消耗时间，结果如下图所示。发现线下GG-Graph+Pruning的方式最有效，delay materialization会略微增加消耗时间，但效率仍然很高。

[论文阅读] Discovering Your Selling Points: Personalized Social Influential Tags Exploration

关于索引创建的时间空间消耗，发现delay materialization降低的效果显著，结果如下图所示。其中时间的减少主要是因为存储读写时间的缩减：
[论文阅读] Discovering Your Selling Points: Personalized Social Influential Tags Exploration

[论文阅读] Discovering Your Selling Points: Personalized Social Influential Tags Exploration

1. Motivation & Application

2. Problem Definition & Notation &Hardness

3. Straightforward Solution

4. Optimization about Enumeration: Best-Effort Exploration

5. Optimization about Influence Estimation

5.1. Existing State-of-Art Sampling Strategies

5.2. Lazy Propagation Sampling

5.3. Offline Index-Based Influence Estimation

5.3.1. RR-Graph Index Structure

5.3.2. Effective Pruning Techniques

5.3.3. RR-Graphs Delay Materialization

6. Experiment Results

相关推荐