IDEA上直接运行分布式运算测试报错及 IDEA使用教程

前言:当你写Spark代码是,想要在IDEA上运行测试代码,你会发现有关以下报错:(注意:这里读取的是本地文件)
IDEA上直接运行分布式运算测试报错及 IDEA使用教程
注意:报这个错误的意思是,当前这个IDEA不适合运行跟hadoop相关的分布式程序,解决方法:

  1. 在本地安装单机版的hadoop软件,从集群上下载hadoop软件到本地,然后解压,

  2. 解压以下文件
    1)解压IDEA上直接运行分布式运算测试报错及 IDEA使用教程
    2)解压后的文件/bin目录下hadoop.dll和winutils.exe文件
    IDEA上直接运行分布式运算测试报错及 IDEA使用教程
    3)a.将hadoop.dll文件复制到以下文件夹下
    C:\Windows\System32
    b.将winutils.exe复制到安装的hadoop软件/bin目录下

  3. 添加环境变量
    添加1中安装的hadoop软件的环境变量,如下:
    1)
    IDEA上直接运行分布式运算测试报错及 IDEA使用教程
    2)IDEA上直接运行分布式运算测试报错及 IDEA使用教程

  4. 重启IDEA即可。

但是,如果你读取的是hdfs上的文件则会报一下错误:
IDEA上直接运行分布式运算测试报错及 IDEA使用教程
注意:报这个错误的意思表示,IDEA无法连接到集群的hadoop,解决方法。

  1. 下载集群上hadoop安装目录 /etc/hadoop/下的文件core-site.xml和hdfs-site.xml文件。
  2. 将下载的文件复制到IDEA中以下路径下:IDEA上直接运行分布式运算测试报错及 IDEA使用教程
  3. 也可以添加log4j.properties文件,此文件的的作用是屏蔽控制台输出日子
    注意:添加以上文件到resources目录下后代码中传入的路径默认为hdfs文件,做以下处理则可以改为读取本机本地路径文件:
val pp = sparkSession.read.json("file:\\C:\\Down\\spark\\people.json")
(在路径前加:file:\\,后面添加本地路径即可)

最后,有关IDEA的使用教程
https://blog.****.net/zhongqi2513/article/details/78151989