IDEA上直接运行分布式运算测试报错及 IDEA使用教程
前言:当你写Spark代码是,想要在IDEA上运行测试代码,你会发现有关以下报错:(注意:这里读取的是本地文件)
注意:报这个错误的意思是,当前这个IDEA不适合运行跟hadoop相关的分布式程序,解决方法:
-
在本地安装单机版的hadoop软件,从集群上下载hadoop软件到本地,然后解压,
-
解压以下文件
1)解压
2)解压后的文件/bin目录下hadoop.dll和winutils.exe文件
3)a.将hadoop.dll文件复制到以下文件夹下
C:\Windows\System32
b.将winutils.exe复制到安装的hadoop软件/bin目录下 -
添加环境变量
添加1中安装的hadoop软件的环境变量,如下:
1)
2) -
重启IDEA即可。
但是,如果你读取的是hdfs上的文件则会报一下错误:
注意:报这个错误的意思表示,IDEA无法连接到集群的hadoop,解决方法。
- 下载集群上hadoop安装目录 /etc/hadoop/下的文件core-site.xml和hdfs-site.xml文件。
- 将下载的文件复制到IDEA中以下路径下:
- 也可以添加log4j.properties文件,此文件的的作用是屏蔽控制台输出日子
注意:添加以上文件到resources目录下后代码中传入的路径默认为hdfs文件,做以下处理则可以改为读取本机本地路径文件:
val pp = sparkSession.read.json("file:\\C:\\Down\\spark\\people.json")
(在路径前加:file:\\,后面添加本地路径即可)
最后,有关IDEA的使用教程
https://blog.****.net/zhongqi2513/article/details/78151989