PySpark 实战只运行模式 standalone

Local模式:
开发

简单的集群管理，自带的

–master
–name
–py-files

http://spark.apache.org/docs/latest/spark-standalone.html#installing-spark-standalone-to-a-cluster

standalone
hdfs ：主根NameNode 从根 DataNode
yarn: ResourceManager NodeManager

第一步启动你集群

第二步骤在启动一个从节点

standalone 模式启动
PySpark 实战只运行模式 standalone

假设你有5台机器，就应该进行如下slaves的配置
hadoop000
hadoop001
hadoop002
hadoop003
hadoop004

如果是多台机器，那么每台机器都在相同的路径下部署spark

PySpark 实战只运行模式 standalone

端口是7077
外部端口是8080 如果被占用就自动加1了

PySpark 实战只运行模式 standalone
把 jdk 写入到下面的文件里面

在启动一下

PySpark 实战只运行模式 standalone

启动成功了

如何提交呢

PySpark 实战只运行模式 standalone