安装spark
一、依赖文件安装
JDK和scala:
http://blog.****.net/hit0803107/article/details/52794875
hadoop:
http://blog.****.net/pucao_cug/article/details/71698903
1.1 JDK
参见博文:http://www.cnblogs.com/liugh/p/6623530.html
1.2 Hadoop
参见博文:http://www.cnblogs.com/liugh/p/6624872.html
1.3 Scala
参见博文:http://www.cnblogs.com/liugh/p/6624491.html
所有的集群一定要统一 配置,比如java jdk,scala,存放的位置,版本都要一直,,
一般后面你配置hadoop,和spark都是在master配置 profile文件,然后scp传送覆盖其他slaves节点。
如果你的环境不一样,就不能这样直接覆盖,得每个机子都在配置一遍,很麻烦。
记得修改完/etc/profile
一定要source/etc/profile 立即生效,,因为机子多,所以会出现疏忽,导致出现问题!!
免登陆设置:
免秘钥登录:免登陆,就是当前虚拟机用户登录其他虚拟机,不需要密码,除了第一次。
最好是root用户,,因为默认是用当前用户登录远程虚拟机,,
比入当前虚拟机你登录的用户是root,,执行命令scp /etc/profile 192.168.0.1:/etc,,
等价于scp /etc/profile [email protected]:/etc,,每个电脑都有root用户的,你只需要第一次输入
虚拟机(192.168.0.1)上的root用户的密码即可,,但如果你本地虚拟机登录的用户是me,
那么执行命令scp /etc/profile 192.168.0.1:/etc,,等价于scp /etc/profile [email protected]:/etc,,
你得在远程虚拟机(192.168.0.1)上设置me用户以及密码。
如果用root,就很省事,,比如你ssh 192.168.0.1,,默认就是ssh [email protected]192.168.0.1
https://jingyan.baidu.com/article/c74d6000b499160f6a595de6.html
注意:我们之前需要配ssh免密登陆,他们之间走的是ssh协议,但是spark里面的master和worker走的是tcp协议,和ssh协议没有半毛钱关系。
关闭虚拟机的防火墙后,可以用本地浏览器访问虚拟机网页:
systemctl stop firewalld.service
比如访问: http://192.168.220.10:8088/ http://虚拟机ip:50070/ http://虚拟机ip:8080/
二,安装spark
参考::: https://www.cnblogs.com/liugh/p/6624923.html
三,执行spark demo程序