PySpark 实战只运行模式 standalone

Local模式:
开发

简单的集群管理,自带的

–master
–name
–py-files

http://spark.apache.org/docs/latest/spark-standalone.html#installing-spark-standalone-to-a-cluster

standalone
hdfs : 主根NameNode 从根 DataNode
yarn: ResourceManager NodeManager

第一步启动你集群
PySpark 实战只运行模式 standalone
第二步骤 在启动一个从节点
PySpark 实战只运行模式 standalone

standalone 模式启动
PySpark 实战只运行模式 standalone
PySpark 实战只运行模式 standalone

假设你有5台机器,就应该进行如下slaves的配置
hadoop000
hadoop001
hadoop002
hadoop003
hadoop004

如果是多台机器,那么每台机器都在相同的路径下部署spark

PySpark 实战只运行模式 standalone

PySpark 实战只运行模式 standalone

端口是7077
外部端口是8080 如果被占用就自动加1了

PySpark 实战只运行模式 standalone
把 jdk 写入到 下面的文件里面
PySpark 实战只运行模式 standalone
PySpark 实战只运行模式 standalone
PySpark 实战只运行模式 standalone
在 启动一下

PySpark 实战只运行模式 standalone

启动成功了

如何提交呢

PySpark 实战只运行模式 standalone
PySpark 实战只运行模式 standalone