Spark精华问答 | Spark做大规模高性能数值计算可以吗?

Spark精华问答 | Spark做大规模高性能数值计算可以吗?

Spark作为一个用来实现快速而通用的集群计算的平台。扩展了广泛使用的MapReduce计算模型,而且高效地支持更多的计算模式,在处理大规模数据集的时候,速度是非常重要的。Spark的一个重要特点就是能够在内存中计算,因而更快。即使在磁盘上进行的复杂计算,Spark依然比MapReduce更加高效。


Spark精华问答 | Spark做大规模高性能数值计算可以吗?1

Q:Spark做大规模高性能数值计算可以吗?


A:Spark是高性能计算目前最佳的选择大数据计算平台;Spark的内存计算、快速迭代、DAG等都为大规模高性能数值计算提供了天然优势;尤其值得一提的Spark框架的编写使用Scala,应用程序开发也主要是Scala,而Scala是分布式多核编程的核心语言,其Function编程模型、Actor和并发的能力让大规模高性能数值计算如虎添翼;Spark配合Tachyon可以极大的提升大规模高性能数值计算的效率。


Spark精华问答 | Spark做大规模高性能数值计算可以吗?2

Q:Spark sql可以代替hive和hbase吗?

        

A:Spark SQL可以取代Hive;Spark SQL可以完成HBase的大部分功能;Spark Streaming配合Spark SQL可以取代HBase。


Spark精华问答 | Spark做大规模高性能数值计算可以吗?3

Q:一个worker上会有多个executor?executor个数是一个app一个吗?还是只有一个?

 

A:一个Worker会有多个executor,一个executor会运行多个task;一个executor只能为一个app实例服务,一个app可以有多个executor;Executor的配置要根据硬件和app处理的数据进行适当调优。


Spark精华问答 | Spark做大规模高性能数值计算可以吗?4

Q:只有一台机器能学习吗?


A:只有一台机器学习Spark是没有问题的;在一台机器上,可以使用local模式运行Spark程序;在一台机器上也可以通过VMware等虚拟机机制虚拟出多台Linux机器,从而在多台机器上搭建集群。


Spark精华问答 | Spark做大规模高性能数值计算可以吗?5

Q:Spark环境需要哪些? 除了HDFS基础,有Spark集成包么?

        

A:Spark的安装需要Hadoop的HDFS;Spark有自己的集成包,但是依旧需要HDFS的配合;同时Spark也可以部署到亚马逊云上。


Spark精华问答 | Spark做大规模高性能数值计算可以吗?

小伙伴们冲鸭,后台留言区等着你!

关于Spark,今天你学到了什么?还有哪些不懂的?除此还对哪些话题感兴趣?快来留言区打卡啦!留言方式:打开第XX天,答:……

同时欢迎大家搜集更多问题,投稿给我们!风里雨里留言区里等你~


福利

1、扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!


Spark精华问答 | Spark做大规模高性能数值计算可以吗?

2、公众号后台回复:白皮书,获取IDC最新数据白皮书整理资料!


推荐阅读:


Spark精华问答 | Spark做大规模高性能数值计算可以吗?真香,朕在看了!