三十九、ETL工具Kettle基础使用

1. Kettle工具介绍

  • Kettle是一款国外开源的ETL工具,纯Java编写,开业在Windows、Linux、Unix上运行,可以高效稳定的完成数据抽取。
  • Kettle中文名叫水壶,该项目的主程序员MATT希望把各种数据放到一个壶里,然后以一种指定的格式流出
  • Kettle的下载地址:https://sourceforge.net/projects/pentaho/files/Data%20Integration/3.2.0-stable/

Kettle和Informatica相比,两者各自的优点如下表所示:
三十九、ETL工具Kettle基础使用

  • Kettle基础知识
  • Kettle开发流程
  • Kettle组件介绍
  • Kettle案例介绍

2 Kettle基础知识

  • Spoon——转换(transform)设计工具(GUI方式):通过图形界面来设计ETL转换过程(transformation)和作业(Job);

  • Pan——转换(transform)执行器(命令行方式):Pan允许批量运行有Spoon设计的ETL转换(例如使用时间调度器),Pan是一个后台执行的程序,没有图形界面。

  • Kitchen——工作(Job)执行器(命令行方式):Kitchen允许批量使用由Chef设计的任务(例如使用一个时间调度器),它也是一个后台运行程序。

  • Carte——基于Jetty的,监听Http请求

  • Encr——用户加密密码
    Job和Transformation的差别:Tranformation专注于数据的ETL,而Job的范围比较广,可以是Tranformation,也可以是Mail、SQL、Shell和FTP等,甚至可以是另外一个Job。

3 Kettle的开发流程

Kettle的开发流程如下:

  • 双击运行Kettle目录下的Spoon.bat,出现kettle欢迎界面;
  • 创建资料库(可省略);
  • 创建数据库连接;
  • 创建转换;
  • 创建Jobs,进行流程化控制。

4 Kettle组件介绍

4.1 数据源获取数据
三十九、ETL工具Kettle基础使用

4.2 数据更新
三十九、ETL工具Kettle基础使用

5 Kettle随机数案例介绍

5.1 Kettle软件的启动
三十九、ETL工具Kettle基础使用

5.2 Kettle软件的核心对象
三十九、ETL工具Kettle基础使用

5.3 Kettle生成随机数的步骤
三十九、ETL工具Kettle基础使用