Uber实时大数据系统架构分析-Kafka-Samza-Siddhi

Uber是全球最大的打车软件公司,而且正在发展为最大的车辆共享软件公司。对于Uber这样的公司来说,对巨量的实时流数据的处理的能力是至关重要的,其实时流数据的处理能力,效率和质量直接关系到公司核心业务的服务质量和用户的满意度。不知道滴滴在技术上是不是可以和Uber一拼,这里没有可能有挑战的意味:)。这篇文章通过研究Uber程序员在Devoxx,WSO2Con, DataWorks Summit等会议上的分享来分析其实时流数据分析的体系架构。也作为今年技术研究的一个方向做一个分析。

Uber实时大数据系统架构分析-Kafka-Samza-Siddhi

可以看到其实时流系统是采用的Kafka,其实Kafka最早是Linkedin开发的一个消息传输工具,但是其性能还是非常卓越的,在很多公司的系统中已经被作为实时流系统的提供程序。

Uber实时大数据系统架构分析-Kafka-Samza-Siddhi

上图是实时流系统的简化结构,可以看到streaming这一块,就是实时流提供程序。Uber采用了Kafka,那他们处理的数据规模大概达到了什么级别呢:

Uber实时大数据系统架构分析-Kafka-Samza-Siddhi

在介绍中他们提到了一个数据,每秒钟达到千万级的消息量。这个数子确实非常惊人。

Uber实时大数据系统架构分析-Kafka-Samza-Siddhi

这个是一个Uber系统的简单结构示意,可以看出来,Kafka其实是作为了其整个架构体系的数据总线在使用。司机和打车的人的实时数据不断地进入Kafka的消息平台,同时聚合了数据库的数据(Cassandra,MySql - 账户信息,元数据等)一提供给用户个性化的服务和实时的人车匹配算法。其实打车时的业务场景是很容易想象的,这个时候乘客的位置,乘客周围的环境等信息是作为实时数据输入系统的;同时当地的所有车辆的位置,司机状态,车辆状态等信息也必须是保持实时传输。系统必须要及时知道双方的信息,同时还要结合数据库中车辆型号,司机个人信息,以及乘客个人信息和特点做出车辆匹配和调度的决定。整个过程必须准确和快速。

有了实时数据流的组件,那么需要提供一个流数据的引擎,对其进行实时处理,那么才能发挥流数据的价值。Uber采用的流数据处理程序是Samza,这个引擎其实本身就是和Kafka配套开发的,天生就和Kafka能够紧密绑定。

Uber实时大数据系统架构分析-Kafka-Samza-Siddhi

可以看到蓝色的部分就是processor,对应的就是Samza在起作用。

Uber实时大数据系统架构分析-Kafka-Samza-Siddhi

对于实时流处理的概念其实还不是一下就能够说清楚,不过我觉得Kafka和Samza的关系可以用下面这个图来表示,Samza Job中对Kafka的中的实时消息进行过滤,加工,整理,如果有必要,继续传递到下一级去处理。

Uber实时大数据系统架构分析-Kafka-Samza-Siddhi

最后要介绍的就是CEP Engine了,Uber使用的是Siddhi。CEP的全称是叫复杂事件处理引擎,这个是干什么用的呢?其实这个工具才是真正处理和使用流数据的软件,这个工具截取一个窗口(一个时间段)的流数据,然后做聚合,查询,分析等等。Uber实时大数据系统架构分析-Kafka-Samza-Siddhi

在Uber的系统中,它起的作用是这样的,通过执行plan runtime来分析并输出处理结果。

Uber实时大数据系统架构分析-Kafka-Samza-Siddhi

Siddhi使用类SQL语言SiddhiQL进行数据炒作,举个例子,这个是查询10分钟内同一个IP地址用不同账号登录10次以上的可疑IP。

Uber实时大数据系统架构分析-Kafka-Samza-Siddhi

OK,时候不早了,这篇文章先写到这里。后面再继续补充吧.....