kettle使用gpfdist加载数据报错解决方法

1.gpfdist的使用
gpfdist可以实现并行加载,需要先启动gpfdist进程及监听端口,这个命令在Master和Segment节点的GPHOME/bin目录下,如果配置了GP的环境变量,可以直接使用,如果在没有安装GP的服务器上使用gpfdist工具,只需要将gpfdist命令的文件拷贝到相应的服务器上即可使用。
2.启动gpfdist服务
nohup /home/gpadmin/greenplum-db/bin/gpfdist -d /root/gp/data/ -p 8889 > /root/gp/log/gpfdist.log 2>&1 &

nohup /opt/greenplum-db/bin/gpfdist -d /root/gp/data/ -m 268435456 -p 8889 > /root/gp/log/gpfdist.log 2>&1 &
kettle使用gpfdist加载数据报错解决方法
在gpfdist下,即可以使用主机名,也可以使用IP。后面的文件路径不能使用绝对路径,因为gpfdist启动时候指定了扫描路径为/root
3.创建外部表
kettle使用gpfdist加载数据报错解决方法
4.执行kettle调度命令
加载报错,报错信息如下:
kettle使用gpfdist加载数据报错解决方法
-m参数的值默认是32K,最大为256M,这里设置为最大268435456 bytes(256M)
修改gpfdist启动服务命令:
nohup /opt/greenplum-db/bin/gpfdist -d /root/gp/data/ -m 268435456 -p 8889 > /root/gp/log/gpfdist.log 2>&1 &
kettle使用gpfdist加载数据报错解决方法
5.再次调度kettle命令
问题解决:
kettle使用gpfdist加载数据报错解决方法