使用Apache-Spark将MongoDB数据管道传输到Redshift
问题描述:
随着我的雇主大幅跳到MongoDB,Redshift和Spark。我正在努力积极主动地接受这些技术。您能否请我介绍任何有助于执行此任务的资源 - “使用Apache Spark创建数据管道以将数据从MongoDB移动到RedShift”使用Apache-Spark将MongoDB数据管道传输到Redshift
因此,至今我已能够下载开发版的MongoDB并创建一个测试Redshift实例。我如何着手设置其余的过程并让我的脚湿润。
我明白,使用Apache Spark创建数据管道,必须使用Scala或Python或Java代码。我对SQL有着深刻的理解,所以请随时提出Scala,Python或Java中的哪种语言对我来说很容易学习。
我的背景是数据仓库,传统的ETL(Informatica,Datastage等)。
预先感谢您:)
答
一个真正好的办法可能是使用AWS数据迁移服务 http://docs.aws.amazon.com/dms/latest/userguide/CHAP_Source.MongoDB.h TML
您可以指定的MongoDB作为源端点和红移为目标端点