Spark和MapReduce的对比

spark和MapReduce不同点在于，spark每次处理数据都先将数据放到内存里面。如果数据量太大，内存盛不下，那么性能就大打折扣。MapReduce每次执行完了一个任务都会存储到磁盘，比如归并排序。先归并两个节点的数据集，存到磁盘上。当需要进一步归并，还要从磁盘读。而spark则是直接在内存里进行归并，需要进一步归并，如果内存继续申请内存。所以spark影响与它一起运行在同一节点的应用性能。

有利必有弊，MapReduce的容错性较好，Spark如果节点断电还得重新运行一遍。MapReduce可以从磁盘读。