PySpark 实战只运行模式 standalone
Local模式:
开发
简单的集群管理,自带的
–master
–name
–py-files
http://spark.apache.org/docs/latest/spark-standalone.html#installing-spark-standalone-to-a-cluster
standalone
hdfs : 主根NameNode 从根 DataNode
yarn: ResourceManager NodeManager
第一步启动你集群

第二步骤 在启动一个从节点
standalone 模式启动
假设你有5台机器,就应该进行如下slaves的配置
hadoop000
hadoop001
hadoop002
hadoop003
hadoop004
如果是多台机器,那么每台机器都在相同的路径下部署spark
端口是7077
外部端口是8080 如果被占用就自动加1了
把 jdk 写入到 下面的文件里面
在 启动一下
启动成功了
如何提交呢