0.前言

本文主要介绍分布式GK Summay算法，考虑分布式流式数据库场景，博客内容来源主要是原始论文与Emory大学的流式数据库的课程内容，本文仅提取出关键内容加入笔者的个人理解，有错误还望谅解与告知。

1.背景

现在考虑分布式流式数据库，流式数据来源如下图：

上图中每个Processing Node需要统计对应的数据，然后将统计数据merge生成可查询的Summary。上篇博客我们知道对于数据流如何构建GK Summary来支持ϵ−approximate ϕ−quantile分位点查询，但是由于数据流来源分布不同，而查询应该基于全局数据，因此需要将所有GK Summary合并merge生成最终全局的Summary查询结构。本文就来探讨分布式GK summary的merge操作以及Prune操作。后续会介绍到Prune操作，不同于上篇GK Summary的delete与compress操作，该操作直接对Summary进行删减，会牺牲误差边界，merge与prune操作是后续A fast algorithm的基础操作。

2.分布式GK Summary算法

2.1 Merge操作

考虑2个summary merge情况，已经按照summary tuple内部v大小排序：

Q' = {(x 1, r m i n (x 1), r m a x (x 1)), (x 2, r m i n (x 2), r m a x (x 2)), . . ., (x n, r m i n (x n), r m a x (x n))} Q ″ = {(y 1, r m i n (y 1), r m a x (y 1)), (y 2, r m i n (y 2), r m a x (y 2)), . . ., (y m, r m i n (y m), r m a x (y m))}

注，上述summary基于(v,rmin,rmax)形式，之前博客已经说明，该形式等价于(v,g,Δ)，后者主要方便新增数据的summary更新，但是前者可读性更高，故本文说明基于前者形式。

如何merge生成最终Q：

{(z 1, r m i n (z 1), r m a x (z 1)), (z 2, r m i n (z 2), r m a x (z 2)), . . ., (z n, r m i n (z n), r m a x (z s))}

Merge方案：首先，考虑s=n+m，关键是分配每个Q中summary的zi、rminQ(zn)以及rmaxQ(zn)。
不失一般性，假设分配Q′中的xr到Q中zi，满足：

max y s \in Q ″ < x r min y t \in Q ″ > x r

此时，可以分配rminQ(zn)与rmaxQ(zn)：

r m i n Q (z i) = {r m i n Q' (x r) r m i n Q' (x r) + r m i n Q ″ (y s), 不 存 在 y s, 其 他

r m a x Q (z i) = {r m a x Q' (x r) + r m a x Q ″ (y s) r m a x Q' (x r) + r m a x Q ″ (y t) - 1, 不 存 在 y t, 其 他

分配完Q′，同样地，对Q″执行一次，这样Q就补充到s=n+m，这就是一种Merge方案。

证明上述方案的可行性，已知Q′、Q″满足误差约束条件：

max i \in Q' (g i + Δ i) \leq 2 ϵ N

max i \in Q ″ (g i + Δ i) \leq 2 ϵ M

现在转化为如何证明：maxi∈Q(gi+Δi)≤2ϵ(N+M)。
证明之前，先说明merge的一般性质：

Q' : max i \in Q' (g i + Δ i) \leq 2 ϵ' N Q ″ : max i \in Q ″ (g i + Δ i) \leq 2 ϵ ″ M \Rightarrow m e r g e (Q', Q ″) : max i \in Q (g i + Δ i) \leq 2 m a x (ϵ', ϵ ″) (N + M)

证明这条性质，间接的也就证明上述merge方案的可行性。下面分2种情况分别证明：

1）在Q中相连zi与zi+1 来源于同一个Q′或者Q″，不失一般性，假设都来源于Q′，分别对应于xr于xr+1。根据rmin(zn)分配定义，可得rminQ(zi)≥rminQ′(xr)，同样地，rmaxQ(zi+1)≤rmaxQ′(xr+1)+rmaxQ″(yt)−1，位置关系如下图所示：

所以：

r m a x Q (z i + 1) - r m i n Q (z i) \leq [r m a x Q' (x r + 1) + r m a x Q ″ (y t) - 1] - r m i n Q' (x r) = [r' m a x Q (x r + 1) - r' m i n Q (x r)] + [r ″ m a x Q (y t) - 1] \leq [r' m a x Q (x r + 1) - r' m i n Q (x r)] + [r ″ m a x Q (y t) - r ″ m i n Q (y t - 1)] (r ″ m i n Q (y t - 1) \geq 1) \leq 2 ϵ' N + 2 ϵ ″ M = 2 m a x (ϵ', ϵ ″) (N + M)

2）在Q中相连zi与zi+1 来源不同，不失一般性，假设zi源于Q′,zi+1源于Q″ ，分别对应于xr、yt。根据rmin(zn)分配定义，可得rminQ(zi)≥rminQ′(xr)，同样地，rmaxQ(zi+1)≤rmaxQ″(yt)+rmaxQ′(xr+1)−1，位置关系如下图所示：

所以：

r m a x Q (z i + 1) - r m i n Q (z i) \leq [r m a x Q ″ (y t) + r m a x Q' (x r + 1) - 1] - r m i n Q' (x r) = [r' m a x Q (x r + 1) - r' m i n Q (x r)] + [r ″ m a x Q (y t) - 1] \leq [r' m a x Q (x r + 1) - r' m i n Q (x r)] + [r ″ m a x Q (y t) - r ″ m i n Q (y t - 1)] (r ″ m i n Q (y t - 1) \geq 1) \leq 2 ϵ' N + 2 ϵ ″ M \leq 2 m a x (ϵ', ϵ ″) (N + M)

得证。

最后，结论扩展：对于quantile summary集合：Q1,Q2,...,Qk, 满足误差为ϵ1,ϵ2,...,ϵk约束，Merge(Q1,Q2,...,Qk)满足误差为：ϵ=max1..k(ϵi)

2.2 Prune操作

Merge操作是将对应summary合并到一块，生成summary的结果数是增多的，如何减少Merge的结果数呢？即定义Prune操作，但减少并不是没有代价的，需要增大误差边界。下面定义Prune操作：

假设将S结果数减少到B，Prune操作为Prune(S,B)，其中|S|代表QSummary S对应的数据集大大小。

Q S u m m a r y P r u n e (Q S u m m a r y S, i n t B) {Q S u m m a r y R = ϕ; f o r (i = 1, (1 / B) \times | S |, (2 / B) \times | S |, (3 / B) \times | S |, . . ., | S |) {v = Q u e r y (S, i); / / G K S u m m a r y 查 询 ， 前 文 已 经 讲 过 r m i n (v) = r m i n (v) i n s u m m a r y Q; r m a x (v) = r m a x (v) i n s u m m a r y Q; R = R \cup (v, r m i n (v), r m a x (v);} r e t u r n R;}

先说结论，Q′为ϵ−approximate quantile summary，则:

Q = P r u n e (Q, B) : (ϵ + 1 / (2 B)) - a p p r o x i m a t e q u a n t i l e s u m m a r y

证明：假设qi 和 qi+1是Prune(Q′,B)中的两个相连summary，位置分布如下图所示：

其中vk为qi在Q′的排序,vm为qi+1在Q′的排序，因此，m−k≤(i/B)×|S|。

r m a x (q i + 1) - r m i n (q i) = r m a x (v m) - r m i n (v k) = r m a x (v m) + + r m i n (v m - 1) - r m i n (v m - 1) + r m i n (v m - 2) - r m i n (v m - 2) + . . . . + r m i n (v k + 1) - r m i n (v k + 1) - r m i n (v k)

r m a x (q i + 1) - r m i n (q i) = r m a x (v m) - r m i n (v m - 1) + r m i n (v m - 1) - r m i n (v m - 2) + r m i n (v m - 2) - r m i n (v m - 3) + . . . . + r m i n (v k + 2) - r m i n (v k + 1) + r m i n (v k + 1) - r m i n (v k)

r m a x (q i + 1) - r m i n (q i) = r m a x (v m) - r m i n (v m - 1) + g m - 1 + g m - 2 + . . . + g k + 1

之前博文说明g表示对应summary覆盖数据量，因此，

g m - 1 + g m - 2 + . . . + g k + 1 \leq (1 / B) \times | S |

结合rmax(vm)−rmin(vm−1)≤2ϵ|S|，可得：

r m a x (q i + 1) - r m i n (q i) \leq 2 (ϵ + 1 / (2 B)) \times | S |