数据仓库工具 kettle first demo
Hop眺: 就是步骤之间带箭头的连线,眺定义了步骤之间的数据通路。跳实际是两个步骤之间的被称为——行集的数据缓存,在流程运行过程中数据会先往hop中写。当行集满了,向行集数据写入数据就会停止,知道行集里又有了空间。当行集空了,从行集读取数据的步骤会停止,直到行集里又有了可读的数据。行集的大小可以在转换的设置里进行设置,如下图:
kettle核心概念:
转换: 转换是ETL解决方案中最主要的部分,它处理抽取、转换、加载各种对数据行操作。 转换包含一个或者多个步骤,如读取文件、过滤数据行、数据清洗或将数据加载到数据库。 转换中的步骤通过 跳(hop)来链接,跳定义一个单向通道,允许数据从一个步骤向另一个步骤流动。
数据流:在kettle 中,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动,一个数据行是零到多个字段的集 合。数据流也被称为记录流。
step 步骤: 步骤(控件)是转换中的基本组成部分;
步骤的关键特性:
1、步骤需要有一个整个转换过程中唯一的名字;
2、每个步骤都会读、写数据行(唯一例外的是“生成记录”步骤,该步骤只写数据);
3、 步骤将数据写到与之相连的一个或多个输出跳,再传送到跳的另一端的步骤;
4、 大多数的步骤都可以有多个输出跳。一个步骤的数据发送可以被设置为分发和复制,分发是目标步骤轮流接收记 录,复制是所有的记录被同时发送到所有的目标步骤。
hop跳:就是步骤之间带箭头的连线,眺定义了步骤之间的数据通路。跳实际是两个步骤之间的被称为——行集的数据缓存,在 流程运行过程中数据会先往hop中写。当行集满了,向行集数据写入数据就会停止,知道行集里又有了空间。当行集空 了,从行集读取数据的步骤会停止,直到行集里又有了可读的数据
kettle中数据行中数据类型:
1 String 字符类型数据
2 Number 双精度浮点数
3 Integer 带符号长整型(64位)
4 BigNumber 任意精度数据
5 Date 带毫秒精度的日期时间值
6 Boolean 取值为true和false的布尔值
7 Binary 二进制字段可以包含图像、声音、视频及其他类型的二进制数据
数据行——元数据: