数据集成
概念
看名字猜意思,就是按照把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中。负责完成有关数据的提取、转换和加载。
可以简单的理解为:数据共享,利于整合信息
注意:数据集成的前提是被集成应用必须公开数据结构
解决什么问题
数据集成通过应用间的数据交换从而达到集成,主要解决数据的分布性和异构性问题
分类
-
联邦数据库系统:
由办自治数据库系统构成,互相之间通过提供访问接口分享数据。可以理解为我们是一个团体或者是一个联盟组织,我们再同一个组织同一个团体中,我们共享一切的信息。开放访问接口就相当于一个提供一个方式一个条件,这个方式和条件都是为了让我们可以实现共享数据
这种模式分为紧耦合和松耦合两种情况,紧耦合提供统一的访问模式,一般是静态的。松耦合不需要提供统一的接口,可以通过统一的语言来访问数据源
-
中间件模式:
通过全局数据模型访问异构的数据库。中间件位于数据层和应用层中间,下协调数据,上提供接口,为异构数据源提供一个高级检索服务。可以看作一个中间商,它来进行协调,转换。 -
数据仓库模式
数据仓库是在企业面向管理和决策的中面向主题的、集成的、与时间相关的和不可修改的数据集合。其实它自身就是一个数据集成,只是它是针对企业某个应用领域说提出的一种数据集成的方法。
体系结构图
- Intergration Services 服务:
从使用SQL Server Management Studion 中提供的Intergration Services服务来监视Intergration Services包的运行并管理包的存储
Intergration Services对象模型:
包括访问Intergration Services的工具、命令行使用工具以及自定义应用程序的本机和托管API
- Intergration Services运行时:
运行时保存包布局、运行包
包含事件处理程序以及自定义任务
- Intergration Services数据流:
封装数据流引擎。
数据流引擎是做什么的呢?
它提供了将数据从源移动到目标赠送的内存中的缓冲区,并且调用从文件和关系数据库中提取数据的源。管理修改数据的转换以及加载数据使数据可以为其他进程所用的 目标。
可以归纳为两点,一是源的移动与提取二是数据