kettle 数据流合并,新增方法
网上参考了大量方法,有的不知所云,有的版本较低已不再合适,最近的项目中用到了这个经过一天多实验思考终于解决了,在此分享出来
1,首先表输入里添加两个数据库,我这儿是mysql和hive的数据库连接
然后添加合并记录,里面这么配置
这儿要注意,标致字段可以用默认,等会要用到
2,添加过滤记录
其中一定要配置上面的标准字段
然后数据数据流就可以了
这儿为什么要这么过滤呢,原因是我再debug时发现的
合并标识这儿会将重复的直接标识为deleted,我就想能否用过滤来过滤掉数据,最后成功了
但我第二天测试时发现有问题,数据新的还是deleted标识,然后我找到了这个
而且在输出hadoop时一定要按下最小宽度,不然在重复取hive的数据时会出现匹配问题
所以现在不用再过滤记录了……
附上整个流程图