从aws Glue Script调用存储过程

从aws Glue Script调用存储过程

问题描述:

ETL作业完成后,在AWS Glue脚本中调用存储过程的最佳方式是什么?从aws Glue Script调用存储过程

我使用PySpark从S3获取数据并存储在临时表中。在这个过程之后,需要调用一个存储过程。该存储过程将数据从临时表加载到相应的MDS表中。

如果我必须在ETL作业完成后调用存储过程,那么最好的方法是什么?如果我考虑AWS lambda,有没有什么方法可以在ETL之后通知lambda。

您可以使用boto sdk在胶水ETL作业结束时关闭您的lambda。由于您正在写入临时表,您还需要在连接的子网上有一个用于boto调用的NAT网关。此链接中的示例使用boto来发起ECS任务,这将是一个类似的过程:https://github.com/full360/glue-sneaql-demo/blob/master/Glue-Job-Script