Spark SQL vs Impala对于ETL

问题描述:

目前,我们正在使用传统数据仓库ETL工具IBM DataStage。我们希望迁移这些工作。这些工作主要包括连接和转换来派生事实表。哪种技术可以更好地迁移这些工作?我们在使用ETL的Impala查询时使用hue oozie,我们是否应该将spark sql用于ETL而不是Impala查询?Spark SQL vs Impala对于ETL

如何[Rü实现2型等。海夫,黑斑羚等,至于我整个大数据堆栈是无用的督促ENV

ü不仅追加数据,但大量更新加载如2型数据。 进行数据更正需要大量的特别查询,更新,删除插入。 从support/dev团队运行大量adhoc查询以查找结果
差异等 以上所有3点都使这个堆栈无用。

的使用情况是 大量的数据很多,其中输出是一些估计不正确,一个大的FAT表,使得删除和下降或非结构化数据