kettle 数据流合并,新增方法

网上参考了大量方法,有的不知所云,有的版本较低已不再合适,最近的项目中用到了这个经过一天多实验思考终于解决了,在此分享出来

1,首先表输入里添加两个数据库,我这儿是mysql和hive的数据库连接

kettle 数据流合并,新增方法

然后添加合并记录,里面这么配置

kettle 数据流合并,新增方法

kettle 数据流合并,新增方法

这儿要注意,标致字段可以用默认,等会要用到

2,添加过滤记录

kettle 数据流合并,新增方法

其中一定要配置上面的标准字段

kettle 数据流合并,新增方法

然后数据数据流就可以了

这儿为什么要这么过滤呢,原因是我再debug时发现的

kettle 数据流合并,新增方法

合并标识这儿会将重复的直接标识为deleted,我就想能否用过滤来过滤掉数据,最后成功了

但我第二天测试时发现有问题,数据新的还是deleted标识,然后我找到了这个

kettle 数据流合并,新增方法

而且在输出hadoop时一定要按下最小宽度,不然在重复取hive的数据时会出现匹配问题

kettle 数据流合并,新增方法


所以现在不用再过滤记录了……


附上整个流程图

kettle 数据流合并,新增方法