Spark和MapReduce的对比

spark和MapReduce不同点在于,spark每次处理数据都先将数据放到内存里面。如果数据量太大,内存盛不下,那么性能就大打折扣。MapReduce每次执行完了一个任务都会存储到磁盘,比如归并排序。先归并两个节点的数据集,存到磁盘上。当需要进一步归并,还要从磁盘读。而spark则是直接在内存里进行归并,需要进一步归并,如果内存继续申请内存。所以spark影响与它一起运行在同一节点的应用性能。

有利必有弊,MapReduce的容错性较好,Spark如果节点断电还得重新运行一遍。MapReduce可以从磁盘读。

解释

Spark和MapReduce的对比

Reference List

  1. Spark vs. Hadoop MapReduce