想构建Cloud Lakehouse,你的数据管理基础够坚实吗?
作者:Jitesh Ghai
Informatica高级副总裁兼数据管理总经理
您如何看待最近的热门话题——Cloud Lakehouse?在我脑海中,湖边小屋让我联想到和平与安宁的画面:景色秀美的湖泊旁矗立着一栋美丽的小屋。在技术世界里,Cloud Lakehouse也有类似的乌托邦愿景。然而,如果没有坚实的云原生数据管理基础,您的乌托邦可能会因为不稳定、不可信、不干净的数据而成为泡影。
什么是Cloud Lakehouse?
Cloud Lakehouse是一种看待云数据的新方式,其中包含数据湖和数据仓库的最佳特征。Cloud Lakehouse具有各种管理区域,可以轻松地把数据从数据湖中移动到数据仓库,为更多的用户提供可信的数据。
尽管Cloud Lakehouse是新出现的事物,但数据仓库和数据湖已经存在多年。数据仓库设计用于存储、更新和检索高度结构化的数据和管理的数据,主要用于业务分析和决策。数据湖旨在以较低的成本存储大量数据——无论是结构化还是非结构化,其主要用于探索性分析和数据科学。
Cloud Lakehouse虽然青出于蓝,但仍然面临着和它的前辈们一样的挑战:需要企业级的数据集成、数据质量和元数据管理来帮助其发挥最大价值。
为什么从云数据仓库和数据湖中获取价值如此困难?
如今,越来越多的公司构建新的云数据仓库或数据湖,或者对其本地部署的数据仓库或数据湖进行整合和现代化,以运行在云上。
问题是,许多组织都难以从云数据仓库和数据湖投资中很快的看到价值和投资回报。这是为什么?因为数据。根据TDWI的调查,大多数组织认为阻碍其云数据仓库和数据湖取得成功的主要障碍是缺乏足够的数据集成、数据质量和元数据管理。
听上去似曾相识,这与我们10多年来在本地部署的数据仓库和数据湖世界中所看到(并解决)的问题一样。那我们如何才能避免在云计算中犯同样的错误,进行同样的战斗呢?
三种常见的数据管理错误
首先,让我们退后一步思考,为什么企业无法从云分析中获得最大化价值?有三个特别突出的原因。
▶采用手工编码解决数据集成、数据质量和元数据管理问题。手工编码可能在简单应用中还能应付,但它会变得越来越复杂,尤其在企业级规模应用和可维护性方面无法满足数据管理最佳实践的要求。而且,当基础技术堆栈改变时,原来手工写的代码无法重复使用。如果需要更改或升级技术、平台或处理引擎,则必须重新设计并重新编码。这是昂贵且费时的,并且会妨碍快速进行创新的能力,从而增加了项目取得长期成功的风险。
▶通过集成多个单点产品来实现端到端的数据管理。使用非集成的多个产品会增加复杂性和成本。可能需要10个以上的单点产品来实现端到端的数据管理。将这些彼此脱节的产品捆绑在一起,意味着将卷入不断的DIY模式,因为需要处理不断变化的路线图、成本和时间超支,最重要的是会带来不一致的数据治理和降低数据质量。这就是由不同供应商所提供的不同产品造成的系统集成噩梦。
▶依赖云计算公司提供的有限解决方案,仅提供最基本的数据集成和数据接入能力。尽管PaaS或IaaS供应商提供的产品都是针对云计算设计的,但它们往往同时具有上述两方面的缺点。它们通常只提供最基本的数据集成和数据接入能力,通过手工编码进行开发,并且提供的是仅能在它们自己平台上扩展的功能。而现代企业的云数据管理必须摆脱单一的PaaS供应商限制,扩展到多云的策略和部署模式。
现代企业需要的是:一个可以解决所有这些问题的领先的、独立的Cloud Lakehouse数据管理解决方案。
Informatica Cloud Lakehouse数据管理解决方案
Informatica Cloud Lakehouse数据管理是业内唯一针对Lakehouse、数据仓库和数据湖的企业级、云原生、端到端数据管理解决方案。
Informatica Cloud Lakehouse数据管理解决方案构建在行业领先的企业级iPaaSInformatica Intelligent Cloud Services (IICS)之上,结合了Informatica先进的数据集成、数据质量和元数据管理能力。
云原生的解决方案拥有强大的自动化和先进的元数据驱动的人工智能功能。解决了当今企业面临的诸多复杂的数据管理挑战。有了它,就可以:
■消除使用手工编码和功能有限的单点解决方案进行数据管理的风险;
■确保数据的干净、标准、可信和安全;
■在整个企业环境实现智能化、自动化、端到端的可见性和数据沿袭;
■快速高效地构建数据管道,满足云数据仓库和数据湖的需要;
■实现云解决方案能提供的所有优势:可伸缩性、敏捷性、最少的安装和设置、自动升级、高可用性和高安全性;
■加速实现数据湖和数据仓库向云上迁移,快速获得投资回报;
■在不断变化的基础分析堆栈技术里(还记得本地部署的仓库、Hadoop、大数据、Spark和转向云端吗?),为未来的数据分析计划提供保障。
借助Informatica Cloud Lakehouse数据管理解决方案,就可以释放蕴藏于云数据仓库、数据湖和Cloud Lakehouse里的强大力量,甚至还可以在异构的多云、混合云环境中使用。现在,只要拥有了坚实的Cloud Lakehouse数据管理基础,就能够成功地实现重要的业务转型,尽情地享受美好的乌托邦。