Kettle安装详细步骤和使用示例

1. kettle概述

Kettle 是 PDI 以前的名称,PDI 的全称是Pentaho Data Integeration,Kettle 本意是水壶的意思,表达了数据流的含义。Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。作为Pentaho的一个重要组成部分,现在在国内项目应用上逐渐增多。

2. install

  1. 准备好jdk8和mysql5.7的环境(没有的小伙伴有需要可以浏览我的其它blog有相关教程)

    点击下方链接下载所需资源

    pdi-ce-7.1.0.0-12.zip

    mysql-connector-java-5.1.48-bin.jar

  2. 解压kettle:D:\ProgramData\data-integration

    找到Spoon.bat生成桌面快捷方式并加一个图标

    点击图标右键打开选择属性-更改图标-浏览选择spoon.ico文件即可

Kettle安装详细步骤和使用示例

解压驱动包,将mysql-connector-java-5.1.48-bin.jar这个包放进lib目录下

  1. 启动Spoon.bat

    点击右上方Connect–Other Repositories–Database Repository–Get Started

    Display Name起名test

Kettle安装详细步骤和使用示例

点击None>配置Database Connection

配置完相关项后点击测试

Kettle安装详细步骤和使用示例

无误后确认back即可:

Kettle安装详细步骤和使用示例

Finish–>Connect Now

出现登录页面,用户名是admin,密码也是admin,进去可以修改

Kettle安装详细步骤和使用示例

connect后看右上方连接成功

Kettle安装详细步骤和使用示例

这时连接数据库查看数据库kettle中自动创建了使用kettle所需要的表结构

Kettle安装详细步骤和使用示例


如何添加新用户

点击工具>>资源库>>探索资源

Kettle安装详细步骤和使用示例

选择【安全】>>点击加号添加用户>>填写账号密码保存

Kettle安装详细步骤和使用示例

功能栏简介

Kettle安装详细步骤和使用示例


3. 使用简介

➢转换是ETL解决方案中最主要的部分,它负责处理抽取、转换、加载各阶 段对数据行的各种操作。转换包括一个或多个步骤,如读取文件、过滤输 出行、数据清洗或将数据加载到数据库。
➢转换里的步骤通过跳来连接,跳定义了一个单向通道,允许数据从一个步 骤向另一个步骤流动。在Kettle里,数据的单位是行,数据流就是数据行 从一个步骤到另一个步骤的移动。数据流的另一个同义词就是记录流。
➢除了步骤和跳,转换还包括了注释,注释是一个小的文本框,可以放在转 换流程图的任何位置。注释的主要目的是使转换文档化

4. 转换操作示例

4.1 基本概念

Kettle安装详细步骤和使用示例

步骤是转换里的基本组成部分。它是一个图形化的组件,可以通过配置步 骤的参数,使得它完成相应的功能。例子显示了两个步骤,分别为“表输 入”和“Microsoft Excel 输出”。配置“表输入”步骤的参数,可以使 得这个步骤从指定的数据库中读取指定关系表的数据;配置“Microsoft Excel 输出” 步骤的参数,可以使得这个步骤向指定的路径创建一个 Excel表格,并写入数据。当这两个步骤用跳(箭头连接线)连接起来的 时候,“表输入”步骤读取的数据,通过跳,传输给了“Microsoft Excel 输出”步骤。最终,“Microsoft Excel 输出”步骤把“表输入” 所读取的数据,写入到Excel表格中。这个跳,对“表输入”而言,是个 输出跳;对“Microsoft Excel 输出”而言,是个输入跳。

Kettle安装详细步骤和使用示例

➢转换的跳就是步骤之间带箭头的连线,跳定义了步骤之间进行数据传输的 单向通道。

➢从程序执行的角度看,跳实际上是两个步骤线程之间进行数据行传输的缓 存。这个缓存被称为行集,行集的大小可以在转换的设置里定义。当行集 满了,向行集写数据的步骤将停止写入,直到行集里又有了空间。当行集 空了,从行集读取数据的步骤停止读取,直到行集里又有可读的数据行

*注意:*因为在转换里每个步骤都依赖前一个步骤获取字段值,所以当创建 新跳的时候,跳的方向是单向的,不能是双向循环的。

Kettle安装详细步骤和使用示例

4.2 demo

1.点击加号->转换

Kettle安装详细步骤和使用示例

2.点击保存图标,重命名该转换文件为First conversion,保存在某个指定的路径

Kettle安装详细步骤和使用示例

3.在核心对象列表中选择输入>>表输入,左键点击表输入拖拽到右边画布中

➢这样,在画布中就创建了一个新步骤

➢接着选择输出>>Microsoft Excel输出,同样拖拽到右侧

Kettle安装详细步骤和使用示例

4.转换里的步骤通过跳定义一个单向通道来连接。点击“表输入”步骤,Shift+鼠标左键,将箭头一直拖 到“Microsoft Excel 输出”,松开鼠标左键,即可建立两个步骤之间的跳

注:右键点击跳的箭头符号,在菜单栏上选择相关的操作设置该跳的一些属性,包括“使节点连接时效”,“删除节点连接”等

Kettle安装详细步骤和使用示例

5.双击“表输入”步骤进行配置, 在弹出的配置对话框中,点击 “新建”按钮配置数据库的连 接信息。

➢配置数据库连接后,“表输入”弹框中会显示新建的数据库连接

Kettle安装详细步骤和使用示例

➢在“表输入”弹框中,点击“获取SQL语句”按钮,将弹出“数据库浏览器”

Kettle安装详细步骤和使用示例

➢选择之前创建好的student表,选择“student”表后,“表输入” 弹框会显示“学生”表的查询 语句

Kettle安装详细步骤和使用示例

➢选择预览的记录数量,我这里设置为2,点击 “确定”后,将可以查看学生 表的数据记录信息。此时,已 完成了“表输入”步骤的配置。

Kettle安装详细步骤和使用示例

6.双击“Microsoft Excel 输出” 步骤进行配置。在弹出的配置 对话框中,点击选定“文件& 工作表”进行配置

Kettle安装详细步骤和使用示例

➢在“Microsoft Excel 输出”步骤 的配置对话框中,点击选定“内容” 进行配置。

➢ 点击“获取字段”按钮,获取上个 步骤输出的数据字段。

Kettle安装详细步骤和使用示例

➢ 获取后,在“字段”的表格中显示了已获取的字段。这些字段将在C:\Users\18322\Documents\stu.xls文件中输出

7.点击启动按钮开始转换

Kettle安装详细步骤和使用示例

看下面日志输出和步骤度量

Kettle安装详细步骤和使用示例

Kettle安装详细步骤和使用示例

打开成功生成‪的C:\Users\18322\Documents\stu.xls.xlsx这个文件可以看到限制输出的2行数据

Kettle安装详细步骤和使用示例