Kettle操作手册-Kettle简介与目录介绍

ETL简介

ETL(Extract-Transform-Load的缩写,即数据抽取,数据转换,数据装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以要掌握一款ETL工具。

为什么选择kettle

kettle是一款开源的,纯java编写的,可以跨平台的,绿色版无需安装的ETL工具,数据抽取高效稳定。

kettle的中文名是水壶,该项目的主旨是希望将各种数据放到一个水壶里面,然后以指定的格式让他流出来。

kettle这个ETL工具集,他允许输入不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。

kettle内有两种脚本文件,一种是transformation和job,前者完成针对数据的基本转换,后者完成整个工作流的控制。

kettle的结构

kettle的结构分为三部分,spoon,Data Integration Server和Enterprise Console(企业版专有)。

spoon是构建ETL jobs和transformations的工具,spoon以拖拽的方式图形化设计,能够通过spoon调用专用的数据集成引擎或集群。

Data Integration Server是一个专用的ETL server,他主要的功能有:

功能 描述
执行 通过Pentaho Data Integration引擎执行ETL的作业或转换
安全性 管理用户、角色或集成的安全性
内容管理 提供一个集中的资源库,来管理ETL的作业和转换。资源库包含所有内容和特征的历史版本。
时序安排 在spoon设计者环境中提供管理和data integration server上的活动的时序和监控的服务。

Enterprise Console提供一个小型的客户端,用于管理Pentaho Data Integration企业版的部署。

包含企业版本的证书管理、监控和控制远程Pentaho Data Integration服务器上的活动,分析已登记的作业和转换的动态绩效。

kettle的核心组件

名称 描述
spoon 通过图形接口,用于编辑作业和转换的桌面应用。
pan 一个独立的命令行程序,用于执行由spoon编辑的转换和作业。
kitchen 一个独立的命令行程序,用于执行由spoon编辑的作业。
carte carte是一个轻量级的web容器,用于建立专用,远程的ETL Server。

kettle下载

官网:https://community.hitachivantara.com/s/article/data-integration-kettle

访问之后一直下滑到:

Kettle操作手册-Kettle简介与目录介绍

下载。

目录结构:
Kettle操作手册-Kettle简介与目录介绍
文件结构

Kettle操作手册-Kettle简介与目录介绍

  • carte.bat/carte.sh

    启动集群命令

  • encr.bat/encr.sh

    kettle提供的加密算法

  • Import.bat/import.sh

    导入命令

  • kitchen.bat/kitchen.sh

    运行job的命令

  • Pan.bat/pan.sh

    运行转换的命令

  • set-pentaho-env.bat/set-pentaho-env.sh

    设置环境变量脚本

  • spoon.bat/spoon.sh

    启动kettleUI界面

  • spoonDebug.bat/spoonDebug.sh

    以debug的形式启动kettle