spark环境的搭建
打开虚拟机
下载安装文件spark软件包
将软件包放置到linux系统中
在指定路径下解压spark安装包
因为是图形化界面,所以好操作很多,像在Windows环境下一样将spark文件移入需要的路径下,并解压,重命名为spark
修改spark-env.sh文件
先复制2文件,再把复制之后的文件重命名为1文件名也就是spark-env.sh,然后直接打开文件,修改完后保存就可以了。添加的内容如图所示:
这个路径要和自己的hadoop安装路径相同(如果不记得自己的hadoop环境变量的话,可以打开自己的环境变量看看 cat etc/profile)
修改./bashrc文件
路径要按自己实际的来
刷新变量使之生效
验证spark是否安装成功
太长了,我们运行一个别的
。。。。。
虽然进入了Scala,但我们觉得好像还是哪里出了点问题,于是查看spark中的文件夹和当时配置时的环境变量,发现有一个地方写错了。我们把python3中的3去掉,
重新刷新该文件
然后启动pyspark
启动成功。