关于对象引用的Spark序列化

问题描述:

剂量Spark序列化为每个对象引用都生成对象?关于对象引用的Spark序列化

我有一份工作,所有行引用一个大对象,实际上因为所有的只是对象引用,整体数据不超过1G。 但是,缓存坏事发生(the partition is too large to save)。

Java序列化preserving object reference by id
Spark是一样的还是它具体化(爆炸!)所有参考?我找不到关于此的文件,但我认为应该有。

这不是一个你应该问的关于大对象的问题,而是涉及一些涉及小对象和引用平等的案例。

对于大对象,你应该用广播的变量: http://spark.apache.org/docs/latest/programming-guide.html#broadcast-variables