OLAP 数据分析系统实现方案

什么是OLAP

数据处理大致可以分成两大类：联机事务处理OLTP（on-line transaction processing）、联机分析处理OLAP（On-Line Analytical Processing);

这里我们聊一聊OLAP，OLAP系统对数据的处理也有多种：MPP、搜索引擎和预处理。这里讲的是预处理的场景。

一个预处理的OLAP系统在处理数据时总是分成如下几个阶段：数据收集，数据清洗，数据计算，数据输出。根据业务需要部分阶段会重复。

OLAP 数据分析系统实现方案

数据收集阶段负责对接第三方系统，从第三方系统接收数据。有如下方式

各方式的比较

此阶段有两个注意事项：

无论使用什么方式，这些接口都是一个事件接口。

事件接口的意思是这个接口接收的信息不是名词，是动词。类似一个接收物流运单的接口，这个接口接收的不是物流运单，接收的是物流运单变化。所以接口需要知道运单是新建的、修改的、删除的。
保存原始数据任何逻辑都会有bug，如果保存数据时对数据做了加工，一旦发现逻辑有bug，将没有修复的机会了。所以要求数据一旦接收了，就原封不动的保存。所以这里的数据库只保存原始数据，尽可能的原封不动。

对于接收到的数据我们可以称之为Data Event。这些数据一般有时间戳，或者其他的确定顺序的字段，便于事件回放。

数据清洗阶段的主要作用是对接收到的数据按照业务调整格式。

经过数据清洗，我们得到了具有业务含义的基础数据，这些数据会根据第三方提供的数据不断更新，我们称其为Base Data。这部分数据的特点是

此阶段的逻辑是：加载Base Data，根据配置和业务需要计算KPI。类似计算每个运输单从发货到收货持续了多长时间。这个阶段计算内容有如下要求：

这个阶段的产物是可以直接输出或者经过简单的汇聚就可以输出的数据，基本到达了最后的可视数据阶段，我们称其为View Data。在一个复杂的系统中，一个业务的View Data可能成为另一个业务的Base Data。此时会多出来一个阶段：计算关联数据。

OLAP 数据分析系统实现方案

通过计算关联数据，让数据计算过程只被一种数据触发计算，在实际实施时可以有效防止数据冲突。

代表整个平台将计算后数据对外输出，可以有如下形式

对于主动给下游发送数据的接口，在设计的时候要提供重复发送的功能。重复发送功能对定位问题和实际线上生产问题的数据恢复很有帮助。发送数据接口最好提供指定模拟发送时间功能，这样在数据遗漏，补充发送时会更为简单。

这里举一个复杂点的物流系统的例子，如图：

OLAP 数据分析系统实现方案

图中实线是数据的流向，虚线是消息队列的流向，Kafka代表Kafka的一个topic。

这里有两类数据，运单和发票。