Spark精华问答 | Spark做大规模高性能数值计算可以吗？

Spark作为一个用来实现快速而通用的集群计算的平台。扩展了广泛使用的MapReduce计算模型，而且高效地支持更多的计算模式，在处理大规模数据集的时候，速度是非常重要的。Spark的一个重要特点就是能够在内存中计算，因而更快。即使在磁盘上进行的复杂计算，Spark依然比MapReduce更加高效。

Q：Spark做大规模高性能数值计算可以吗？

A：Spark是高性能计算目前最佳的选择大数据计算平台；Spark的内存计算、快速迭代、DAG等都为大规模高性能数值计算提供了天然优势；尤其值得一提的Spark框架的编写使用Scala，应用程序开发也主要是Scala，而Scala是分布式多核编程的核心语言，其Function编程模型、Actor和并发的能力让大规模高性能数值计算如虎添翼；Spark配合Tachyon可以极大的提升大规模高性能数值计算的效率。

Q：Spark sql可以代替hive和hbase吗？

A：Spark SQL可以取代Hive；Spark SQL可以完成HBase的大部分功能；Spark Streaming配合Spark SQL可以取代HBase。

Q：一个worker上会有多个executor？executor个数是一个app一个吗？还是只有一个？

A：一个Worker会有多个executor，一个executor会运行多个task；一个executor只能为一个app实例服务，一个app可以有多个executor；Executor的配置要根据硬件和app处理的数据进行适当调优。

Q：只有一台机器能学习吗？

A：只有一台机器学习Spark是没有问题的；在一台机器上，可以使用local模式运行Spark程序；在一台机器上也可以通过VMware等虚拟机机制虚拟出多台Linux机器，从而在多台机器上搭建集群。