【SDCC讲师专访】蘑菇街黄大鹏:实时业务场景下的技术选型思考
2016年9月22日-23日,由****重磅打造的大数据核心技术与实战峰会、互联网应用架构实战峰会将在杭州举行。
SDCC 2016大数据技术&架构实战峰会(杭州站)是由****主办的顶级技术盛会,大会目的是促进更加深入的业内同行技术交流,传播先进技术理念。SDCC 2016·杭州站为期两天,主要面向对大数据/架构技术感兴趣的中高端技术人员,将秉承干货实料(案例)的内容原则,聚焦技术实践,结合业务,邀请业内顶尖的架构师和技术专家,共同探讨海量数据下的应用监控系统建设、异常检测的算法和实现、大数据基础架构实践、敏捷型数据平台的构建及应用、音频分析的机器学习算法应用,以及高可用/高并发/高性能系统架构设计、电商架构、分布式架构/微服务等话题与技术。
大会前夕,有幸邀请到蘑菇街实时计算平台经理黄大鹏接受****记者专访。
蘑菇街实时计算经理(数据平台部) 黄大鹏
黄大鹏,2014年加入蘑菇街,现任蘑菇街实时计算平台经理,负责蘑菇街实时数仓的建设。多年大数据从业经验,曾就职于阿里云,参与RDS产品的开发,擅长各类数据库应用以及数据产品开发。
****:请介绍下自己和目前从事的工作,以及关注哪些技术领域?
黄大鹏:专注于大数据库领域的各类应用,对关系型/非关系型数据库都有涉猎,喜欢捣鼓各类计算框架,之前在阿里云RDS团队做开发,管理过超5000个mysql实例的集群,于2014年10月加入蘑菇街,负责实时计算平台的建设,从零开始搭建实时计算平台,目前服务于多个业务线,比较擅长结合业务场景做数据架构的设计。
****:有别于社交网络、搜索和游戏等网站,电商网站的用户流量有哪些特点?
黄大鹏:游戏没接触过不是很了解。社交和搜索的变现大多数情况下都是靠电商,都是给电商引流的工具,比如说蘑菇街,现在是一个社交化的购物平台,上面的用户可以相互关注,分享,聊天,并且有大量的网红店,在这样一个“电商网站“里,搜索,社交,电商等各类业务场景都有,在这里做用户流量的运营,数据的分析,是要考虑用户在线上的各类需求的,而别的独立的社交网络或者搜索网站更多关注的用户流量变现的一个环节,而我们是需要将社交,搜索,电商串联起来分析用户流量。
****:能否介绍下蘑菇街实时计算平台的架构?有什么特点?
黄大鹏:我们主要围绕着易用性和高可用来搭建我们的实时计算平台,由于实时数据开发难度较高无法直接交给BI同学,像在蘑菇街之前都是由管理维护storm集群的同学来开发的,底层做基础开发的同学对业务的敏感度就相对弱一些,很多统计程序开发出来没多久由于业务逻辑发生了变化,产出的数据口径就不匹配了,而这批同学又要做业务的开发,又要维护集群的稳定性,十分辛苦,不符合专业人做专业事的原则,所以我们的平台降低了实时统计任务开发的难度,用DSL语言的方式使得BI同学能够接手实时统计开发。高可用方面,在数据链路上各个环节我们都有做HA,另外我们重点放在了监控上面,从两个方面做监控:
- 系统层面,包括数据链路,jvm,系统,延迟等各类监控。
- 业务监控,包括histogram,同比,环比,总条目数等。
****:蘑菇街的实时数据平台可以服务于哪些业务场景?不同场景下如何进行技术选型?
黄大鹏:场景包括,搜索排序,广告推荐,风控,运营支撑,系统运维等场景。在技术选型方面,我们将实时计算分为四类,每类用不同的数据架构来满足需求,具体包括:
- ad-hoc的实时计算(即席查询),实时体现在计算发生在查询,侧重于计算的实时性。
- 流式计算,计算模式固定,结果随着输入的变化不断更新。
- 增量计算,离线数据+增量的流式数据结果
- 实时数据的实时计算,既数据不断更新与此同时计算发生在查询时。
具体这四类实时计算采用怎样的数据架构,请参考接下来这次会议上我的分享。
****:在数仓平台中,您如何应对数据治理、业务梳理与底层技术三者间的关系?
黄大鹏:数据治理主要解决数据打通,获得高质量基础数据的问题,提供数仓的原材料,巧妇难为无米之炊,如果基础数据不准确,或者数据不能关联打通,那么再多的机器,再先进的计算平台都是摆设。而数据要产生价值必须和业务紧密结合,如果业务逻辑混乱,职责划分不清,那么就很难产出口径清晰,可读性高的数据,增大数据使用的难度。底层技术主要要解决数据量,稳定性和计算复杂度的问题。
****:在本次SDCC 2016(杭州)大数据峰会上,您分享的话题是?
黄大鹏:我分享的题目是《蘑菇街实时计算平台实践》,分享的内容包括,实时计算技术选型,平台建设和数据治理相关话题的实践经验。