对话:大数据技术落地民生 融合场景将解决企业数据搬迁的痛点

前言

未来的数据库将是一个开放、融合的系统,如何把已经被证明技术体系融合在一起,把一些先进的技术以开放的姿态加入到体系中来,也许是数据库发展的一个未来趋势。****记者在BDTC 2017现场采访了北京东方国信科技股份有限公司首席架构师金正皓,作为国产数据库的代表就数据融合、筛选等技术话题进行了深入探讨。

对话:大数据技术落地民生 融合场景将解决企业数据搬迁的痛点

北京东方国信科技股份有限公司首席架构师 金正皓

从数据仓库到大数据技术

****:很多读者并不太了解东方国信,请您先简单介绍一下。

金正皓:东方国信是一家具有18年的技术性公司,公司随着国内IT技术浪潮的发展从一家很小的企业,逐渐发展到一家上市公司,当前员工数量6000多人,业务覆盖电信、金融、政府、能源、交通、农业、医疗等十多个领域。

****:请向读者再介绍下您自己。

金正皓:我本人毕业于中科院数学所,做人工智能方面的学习和研究工作,后来加入东方国信一直做电信行业和金融行业的数据仓库的建设。在这个过程之中,我们体会到了大量的客户需求和技术相结合,从而创造出价值。作为企业客户来讲,他们思考问题出发点不是技术本身,而是这个技术如何给其经营、管理赋能。

****:大数据已经谈了10年,大数据峰会也办了10年,作为业界老司机老兵,你怎么谈大数据这十年的变化?

金正皓:我们从03年开始涉足数据仓库技术,数据仓库可以说是大数据的前身,不过底层技术采用传统的IOE的技术体系。随着互联网市场的爆发,新一代大数据技术在互联网企业应运而生,新一代大数据技术互联网企业应运而生,在国家大数据+的政策引导下,传统行业用户也开始逐步向新一代的大数据技术迁移。在大数据建设方面,因为行业用户跟互联网用户有本质的区别,互联网用户它的自主技术开发能力,实际上更领先于传统的行业用户。

当前,很多大数据技术起始于互联网企业,谷歌、Facebook ,国内的百度、阿里,它们都是大数据技术的引领者,早期确实是互联网引领了技术潮流。从2C到现在2B,大数据概念已经渗入到社会方方面面,现在行业用户也逐渐认识到大数据技术,可以给自己企业的经营管理带来不一样的一片天地。

把运营管理下沉到最底层

****:传统企业在大数据浪潮下,获得了哪些机遇和挑战?

金正皓:行业用户对大数据其实并不陌生,电信、金融行业在数据仓库的建设应该超过15年以上的建设经验,他们对数据、业务、分析、经营管理等,都有很深入的理解。

基于大数据技术,一些大型企业的构建思路也在逐渐成熟。很多企业提出如何为其生产、管理、运营赋能的概念,赋能业务人员、技术人员这个词经常被提到。比如一些电信行业的央企,已经把原来生产运营的一些单元,从省公司下放到地市公司甚至到县,更甚到片区经理或班组的班组长。

随着行业思路的改变,对其IT技术也提出了新的挑战,企业希望把运营管理下沉到最底层。华为任正非提出“让听得到的炮声的人来指挥炮火”,同样是希望把业务第一线的人员使命感、利益、责任感,都充分调动起来,承包的最小单元。通过调动一线人员的积极性,提升企业的运营管理的能力。现在很多的传统企业正在走互联网企业证实过的一条路,把自己原来的企业建成一个平台,服务于他们的客户,这种技术、组织架构的转型,对传统企业来说是一次重大历史机遇。

****:传统行业他们可能并不能像互联网行业技术迭代得那么快,他们没有那么多试错的空间快速更新技术。那你在BDTC演讲的话题,是《面向行业大数据需求的数据库系统新特性》,请简单阐述一下,为什么要讲这个话题,听众从中可以获得哪些收益?

金正皓:我要把这个问题拉的长一些。从十几年建设数据仓库经验来看的话,随着数据规模的加大,在传统IT架构下,数据仓库的建设成本非常非常昂贵。举一个例子,我们如果在一个省的分公司建设IT系统,本来十几个人就可以把IT系统的:数据采集、入库加工、对上面决策层的支持、对管理层的支持、各种分析报表、分析主题、数据挖掘等工作做好。但是,中国很多大型企业的分支机构遍布全国31省,它每个地区的发展水平、营销政策都不一样。所以,很多大型企业的IT建设都存在分散化建设问题,数据一直多多少少的存在当前的行业用户IT系统之中。

数据只有集中到一起才能进行关联、分析和使用,为了把数据集中起来,整个搬动数据带来的管理、技术、运营的成本,实际上是非常昂贵的。现在,很多大企业用到了涉及数据仓库或经营分析系统的大数据平台,平台背后的难题实际上是数据的搬迁、加工、清洗、分类、对运营标签化的管理。如果标注的数据标签存在不一致现象,技术人员通常会感觉到束手无策。这里面存在几个技术难题,一是因为数据来源非常广且系统复杂;二是技术链条长,中间任何环节出现不一致的问题,都会导致使用效果差强人意。

融合,融合,再融合

****:东方国信针对大数据治理方面,给我们带来哪些启发?

金正皓:从数据一致性的角度来看,异构混搭的技术越多,跨系统的数据迁移越多,技术成本和存储成本就越高。我们认为在融合的场景之下,可以解决数据搬迁的企业痛点。数据融合需要跨业务域、全维度全指标的数据整合和分析能力,助力企业应用提高效能转化,将数据赋能,最大产生数据价值;海量数据物理集中,行业用户对于跨地域存储和计算资源的整合有明显需求,跨域分析计算带来的新机遇。企业需要IT建设中保证传统分析和应用的平滑迁移,这个过程我们认为是需要一步一步往前走的。

****:东方国信的云和大数据是如何结合的?

金正皓:我们所有的方案思路都来自于实际行业的痛点。

针对行业用户而言,一方面不断学习互联网企业在大数据建设方面的成功经验,另一方面的行业用户对IT系统的稳定可靠要求高,因此在大数据建设方面多采用先试点再推广的建设方式,但是核心系统方面并没有达到像互联网企业大规模的后端的数据系统。

我们把自己分布式的分析型数据库架在云上面,诉求也是行业用户提出的。他们不希望我们进行过多跨库的搬迁。作为给行业用户建造数据仓库的企业,他们希望你只给我建造一份数据仓库,不要有太多数据集市,不要有跨系统边界的数据集市的分散,从而解决数据不一致的问题。这个思路很简单,融合,融合,再融合。融合的规模大,上云部署就是一个必然的技术选型。因此,客户可以看到云架构给他们带来的便利部署和系统的简洁性。规模越大,云化就越是必然的趋势。

在大数据时代,传统企业感受到数据仓库建设耗费的巨大成本,举个电信行业公司的例子,它使用了由东方国信组建的除互联网企业之外的最大规模的数据仓库,把全国所有的数据都集中在一个数据中心里面,供其分析挖掘使用,规模应该是几万亿的数据库,数据处理量非常大,整个规模有几千个节点。

****记者:那它会不会遇到高并发时期,有没有做高并发的风控准备?

金正皓:在高并发式应用场景上,企业用户比互联网的并发度要小。但是这个问题我们仍然遇到过,可以从解决海量数据库库高并发的查询、低时延的应用等多个角度着手。

智能应用到底在哪个领域爆发,现在很难说得清

****:除了数据库领域外,你还关注BDTC大会的哪些议题?

金正皓:我非常关注AI,从计算机刚诞生不久,社会上对AI的憧憬就一直存在。

无论是人脸识别、图片识别、语音识别、手写文字的识别,这些认知技术都会发挥很大的能力,但是我也非常非常希望,能有更加深层次的智能推理的东西能够出来,但是AI的应用场景到底在哪个领域爆发出来,现在很难说的清,很多公司都在探索,譬如深度挖掘技术在医疗领域的尝试。大数据是智能系统的油料,发动机可能是它的算法。此外,超强的算力,无论是GPU还是超算,我认为都是很有意思的议题点。

****今年大会的主题非常关注AI,我是非常期待AI、大数据和行业需求相结合。能在****大会上听到这种非常有技术高度的介绍,同时也能看到实际扎根的应用,顶天立地。

后记

虽然AI行业处于发展初期,但它跟大数据的结合还是非常紧密的,其背后都需要数据库的大数据底层支撑。大数据技术现在已经发展成为关系民生的行业,整个生态技术如何落地生根、开花结果将是下一阶段大数据发展的重要方向。从学术界技术转变到产业界应用,大数据走了10年之久,我们看东方国信等国内优秀数据库企业,在整个行业中提供相关的数据服务,****将持续关注大数据行业的未来发展。