Hadoop的地图加入火花SQL

问题描述:

相当于我在寻找Hadoop的mapjoin相当于Spark和我能找到这个spark.sql.autoBroadcastJoinThresholdHadoop的地图加入火花SQL

  1. 它是否工作正常火花SQL?我尝试过,但是即使我应用参数,它也没有效果,因为随机播放读/写是相同的。

我设置这个值,跑到我的查询sqlContext.sql("SET spark.sql.autoBroadcastJoinThreshold=100000000;")

  1. 是否有火花SQL任何其他等同的概念?
  2. 谢谢..

开始=>

  1. 这在星火1.1.0介绍。
  2. 在Spark测试套件中进行了测试(有点) - 请参阅PlannerSuite
  3. 您的SET查询被不支持它的Spark版本高声无声地吞噬了 - 我只是用1.0.2来试用它。
+0

谢谢... spark.sql.shuffle.partitions也仅在Spark 1.1.0中有记录,但对Spark 1.0.1可以正常工作...... – user3279189 2014-09-25 05:38:05

+0

我在这里说的是不同的东西:执行此操作的代码功能简单地在1.0.0分支中丢失,我认为1.0.2发布了。我似乎在1.0.2发布之前的一个星期左右出现了[this commit](https://github.com/apache/spark/commit/c7db274be79f448fda566208946cb50958ea9b1a),但是我没有看到证据表明它已经进入该版本(看大蓝色矩形的最后一行)。 – 2014-09-25 13:22:20

+0

我明白了......感谢您的信息......任何机会 - 您都可以在1.1.0中查看此功能? – user3279189 2014-09-25 18:54:58