大数据核心技术与应用实战峰会（上）：大数据在多行业内大放异彩

5月13日-15日，由全球最大中文IT社区CSDN主办的“2016中国云计算技术大会”（Cloud Computing Technology Conference 2016，简称CCTC 2016）在北京新云南皇冠假日酒店隆重举行，这也是本年度中国云计算技术领域规模最大、海内外云计算技术领袖齐聚、专业价值最高的一场云计算技术*盛宴。本次大会以“技术与应用、趋势与实践”为主题，聚焦最纯粹的技术干货分享，和最接地气的深度行业案例实践，汇聚国内外顶尖技术专家，共论最新的云计算技术实践与发展趋势。

大会第二天，在大数据核心技术与应用实战峰会上午场，来自天河生命科学计算，华大基因研究院、中国移动苏州研发中心、百度、京东、小米的五位专家就各行业内的大数据核心技术与应用与在场的听众进行了分享。

本次峰会在中科院计算所副研究员查礼开场致辞中拉开帷幕。首先，查礼对冒雨赶来的听众表示感谢，他表示本次实战峰会的主题是多元化：一是技术上的多元化；二是应用多元化；三是行业领域的多元化。他希望本次大会可以为大家带来实在的应用层面的信息新的进展。

中科院计算所副研究员查礼

本次实战峰会由亚信数据大数据云平台部总经理何鸿凌主持。

亚信数据大数据云平台部总经理何鸿凌

天河生命科学计算方向负责人，华大基因研究院“特聘教授”彭绍亮：天河超级计算机上的生物医药大数据研究

首位登场演讲天河生命科学计算方向负责人，华大基因研究院“特聘教授”彭绍亮带来的分享是《天河超级计算机上的生物医药大数据研究》。演讲之初，他对天河超级计算机做了简介，他介绍到天河计算机的计算能力十分之强，例如天河一号计算机的计算能力就是是AlphaGo十倍之多。紧接着他又介绍了基于天河可有效解决的3类生物大数据问题：

计算密集型（Computation-Intensive）：大规模基因比对、基因组装、虚拟药物筛选等；
数据密集型（Data-Intensive）：大内存：二三代混合测序数据的序列拼接，大IO：NGS基因大数据的读写、海量文本挖掘；
通信密集型（Network-Intensive）：生物网络（基因调控网络、蛋白质互作网络）、大规模生物分子动力学模拟等。

天河生命科学计算方向负责人，华大基因研究院“特聘教授” 彭绍亮
彭绍亮介绍到，目前在研的生物大数据分析系统基于天河II号超级计算平台实现，提供生物大数据分析服务，包括快速组学数据分析、快速组学数据检索、海量数据标注和海量数据知识发现等生命科学研究中迫切需求的服务。该系统的特点是：利用大数据分析工具支撑，提供高效率、高质量的服务。这些工具涉及的基本的数学方法，将他们包封成一套大数据分析基本数学方法库，可调用该方法库，可以定制用户的应用，更好地服务用户。

演讲结尾，他向现场听众介绍了目前基于天河超级计算机上的多个生物医药大数据研究成果，如GPU加速数据压缩：根据主流生物信息数据存储格式，对某些通用压缩算法使用异构硬件进行加速，提升压缩效率；同时针对文件格式中按列或行存储的特点，将文件按照内容相似的列或行进行分块，然后根据数据特性使用合适的算法进行压缩,测试结果显示以列为主分块压缩的方式能较高地提升压缩效率。

中国移动苏州研发中心大数据产品开发部高级工程师薛港：PosgreSQL-X2的架构和实践

来自中国移动苏州研发中心大数据产品开发部高级工程师薛港带来的分享是《PosgreSQL-X2的架构和实践》。Postgres-X2是一款分布式关系数据库,既具有关系数据库的特性，同时又具备可扩展、高可用的特性，主要应用于海量数据的实时在线交易处理系统。他介绍到Postgres-X2架构主要包括GTM、GTM_Proxy、Coordinator、Datanode四部分，其中GTM用于全局事务控制；GTM_Proxy为降低GTM压力而诞生的, 用于对coordinator节点提交的任务进行分组等操作；Coordinator是数据节点与应用之间的接口；Datanode用于物理上存储表数据。在Postgres-x2数据分片实践中，分为分片表和复制表两种，前者适用于数据量很大的表，如业务主表；后者适用于数据量小、并且频繁需要参与join的静态表或者更新缓慢的码表。此后，他向现场听众分享了Postgres-X2开发中的一些坑，主要数据结点的主备存在数据不一致、整个Cluster没办法根据XID恢复到一个一致点，只能恢复到BARRIER点、没有全局的死锁检测。

演讲中，他详细讲解了Postgres-X2和Postgres-XL的关系，Postgres-X2的前身是Postgres-XC，而Postgres-XL是基于Postgres-XC的基础上做的二次开发,增加了MPP的能力,两者的侧重点不同。目前两个社区正在做整合，当前Postgres-XL已经整合了postgres9.5，因此最后可能Postgres-X2直接使用Postgres-XL的Base code。随后，他详解介绍了Postgres-X2和GreenPlum差异。对比GreenPlum，Postgres-X2主要适用于OLTP，以及OLTP和OLAP混合的场景；Greenplum主要适用于OLAP的场景。Posgres-X2相对于Greenplum在代码角度、开源协议、单机工具适应性方面都更有优势。

中国移动苏州研发中心大数据产品开发部高级工程师薛港

演讲结尾，他给出了自己关于分布式数据库的一些思考：

选择分布式数据库是因为我们相信它是未来的发展方向；
分布式数据库不是万能的，它有自已适合的场景;
针对OLTP的分布式数据库目前不是太成熟，我们的思路就是从简单场景，小应用着手，慢慢完善它。

百度开放云大数据平台产品负责人张琪：大数据时代的数据仓储

百度开放云大数据平台产品负责人张琪的演讲主题是《大数据时代的数据仓储》。大数据具有大量、快速、多样等特点，并且数据之间的关系也大大弱化，与此同时云计算的出现使得我们处理大数据成为可能。演讲之中，他从存储引擎和查询引擎两个方面详解了Hadoop、MPP数据仓库的核心技术，并对两者的架构、数据、存储、查询接口和引擎进行了对比。
他表示为更好地应对海量非结构化的数据，应将这两种存储技术的优点相结合，建立现代数据仓库。

该现代数据仓库具有五大特点：

结构化、弱结构化、非结构化存储的原始数据可以复制到BMR集群中；
结构化数据通过ETL载入Palo中；
通过Hive或者Spark SQL交互式查询BMR中的数据，用来做原型测试或者即席查询。这些组件支持运行时定义表模式（Schema on Read），方便处理弱结构化数据。非结构化数据可以通过MapReduce或Spark加工成结构化数据；
变形完成的结构化数据载入Palo，作为企业唯一真实版本（Single Version of the Truth），帮助企业部门之间协作；
通过SQL与Palo通讯，使用BI工具进行即席查询或者交互式分析，或者产生数字面板提供自动报表，以获取洞察力。

百度开放云大数据平台产品负责人张琪

他在现场演示了BI工具形成报表的整个过程，演讲结尾，并对逻辑数据仓库和数据湖技术做了展望。

京东搜索与大数据平台部数据仓库研发部高级经理刘业辉：京东数据仓库3.0时代，面向服务化的大数据平台与实战

京东搜索与大数据平台部数据仓库研发部高级经理刘业辉的分享是《京东数据仓库3.0时代：面向服务化的大数据平台与实战》。他首先介绍到JDW从1.0到3.0发展的过程中，技术重点逐步由关系型数据库、离线演变为服务化、平台化。数据仓库的职责之一是保存数据历史状态，每天全量保存数据量太大，通过对拉链表的改造，使其适合于保存事实表数据，达到保存数据历史状态、快速回复某天数据快照、减少数据存储。
他谈到JDW2.0时代就面临着数据需求的增长远大于数据和数据人才队伍成长这一问题。为了应对该问题，JDW3.0从数据能力、取数途径、数据权限、数据模型四个方面入手解决。

演讲中，他提到，JDW 3.0是由数据交互、调度、知识管理、集成开发、京东分析师、权限管理、质量监控、统一客户端八大系统和数据专家认证体系组成。其中，数据知识管理系统由仓库模型知识、血缘知识、元数据知识三部分汇聚而成；权限管理系统在平台和库级别的权限上，又细分了数据权限管理和粒度权限管理。

京东搜索与大数据平台部数据仓库研发部高级经理刘业辉

演讲最后，他对现场的听众提问的血缘关系做了精彩回答。他解释到血缘体系所有数据加工是通过代码实现，所有的这些东西来源是数据、出去的也是数据，通过解析加工规则，发现整个数据血缘情况。

小米工程师、Kudu PMC & Committer常冰琳：使用Kudu搭建OLAP云服务

大数据核心技术与应用实战峰会上午场的最后一个演讲者是来自小米工程师、Kudu PMC & Committer常冰琳，他的演讲主题是《使用Kudu搭建OLAP云服务》。常冰琳首先介绍了Kudu的设计目标。支持随机读写方面，应该有接近HBase的吞吐能力，同时延迟更低（1ms）；高性能的顺序读方面，应该具有接近HDFS的读性能，同时支持列存储，具有接近Parquet的性能；高可用性方面，支持Raft一致性协议；类关系数据库数据模型方面，支持事务（单行），同时支持Impala、Spark、Drill等计算引擎。

小米工程师、Kudu PMC & Committer常冰琳

紧接着，他详细介绍了Kudu在数据模型和使用、分区、副本、容错、集群、Master、Tablet存储等方面的设计原则。在Tablet存储设计一节，他解释到KuduTablet存储类似LSM(Hbase/BigTable)，但不完全相同。每个Tablet包含：一个MemoryRowSet和多个DiskRowSet（列存储，类似parquet）。Insert写入MRS，MRS满或者定时Flush为DRS。
接下来，他介绍了KUDU在统一数据存储和事务与主键索引两方面的优势。
统一数据存储方面：
1. 简化数据流，降低延迟。不需要定时从行存储转化为列存储，同时支持需要update的分析型应用；
2. 统一元数据和存储格式，避免数据格式转化和不一致问题；
3.分析结果存储和服务，实现分析结果重复使用和统一SQL管理。
事务与主键索引方面：
1. 事务型存储，主键索引，存储层支持去重、Exactly Once语义，同时简化计算层容错处理；
2. 如果数据到达时间有延迟，可按时间排序，简化或加速分析处理。

演讲结尾，他向在场的听众介绍了小米利用Kudu搭建OLAP云服务整个过程，其中采用了Kudu API封装为REST服务等操作，同时在性能设计上牺牲写换取读。