Kettle(PDI-Pentaho Data Integration)7.1安装与性能测试
Windows环境安装
安装版本:7.1
基础环境:JDK1.8u144
下载路径:https://sourceforge.net/projects/pentaho/files/Data Integration/
解压缩即可使用,绿色无污染
SqlServer连接
下载路径http://www.microsoft.com/zh-cn/download/details.aspx?id=11774,解压缩后的jre8中,支持08/12/14/16版本的SQLSERVER。
下载完成后解压缩,将sqljdbc42.jar上传到KATTLE_HOME\lib\中。
此外,可以上传到自定义路径中方便其他项目对JDBC的 调用。也可以上传到JDK_HOME\jre\lib\ext\和JRE_HOME\lib\ext\中,以支持全局。
MySQL连接
下载地址:https://dev.mysql.com/downloads/connector/j/
亲测了一下8.0.15用不了,需要选Looking for previous GA versions,用老版5.1.47的。之后根据环境下载合适的即可。
解压缩后上传到 KATTLE_HOME\lib\中。
JVM设置
编辑KATTLE_HOME\Spoon.bat,第94行if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS="-Xms512m" "-Xmx1024m" "-XX:MaxPermSize=256m"
可以根据机器实际情况进行修改,一般Xms为系统物理内存的3/8, Xmx为1/2。Kettle比较吃内存, 可以调高一些,但别溢出影响效率。
Windows下的使用(操作测试服务器上的数据库)
双击KATTLE_HOME下的Spoon。
新建转换任务,并选择DB连接。
创建一个数据库连接(以61数据库buy为例)
就连接到SQLServer了。MySQL同理(JDBC系列都一样)
剩下的就可以随便玩了。
Windows环境下性能测试
系统环境
操作系统 Win10企业版64位
处理器 Core™i5-7400 3.0GZ双核
内存 16GB
硬盘 希捷ST1000DM003-1SB102机械硬盘7200转1TB
网络 以太网1.0 Gbps
单机/集群环境:单机。
测试时间
闲时
测试工具
Kettle7.1 8G堆内存
测试目标
newbuy2018数据库,201805表,全表读取并本地生成TXT文件
测试结果
输入 128,545,922条
输出 128,545,922条
用时 14min59s
速度 142941条/s