关于对象引用的Spark序列化
问题描述:
剂量Spark序列化为每个对象引用都生成对象?关于对象引用的Spark序列化
我有一份工作,所有行引用一个大对象,实际上因为所有的只是对象引用,整体数据不超过1G。 但是,缓存坏事发生(the partition is too large to save)。
Java序列化preserving object reference by id。
Spark是一样的还是它具体化(爆炸!)所有参考?我找不到关于此的文件,但我认为应该有。
答
这不是一个你应该问的关于大对象的问题,而是涉及一些涉及小对象和引用平等的案例。
对于大对象,你应该用广播的变量: http://spark.apache.org/docs/latest/programming-guide.html#broadcast-variables