安装CDH后启动spark-shell报错解决方案

描述

安装好CDH、Coudera Manager之后，通过Coudera Manager安装所有自带的应用，包括hdfs、hive、yarn、spark、hbase等。利用远程客户端在安装有spark的节点上，通过spark-shell启动spark，满怀期待的启动spark，but，来了个晴天霹雳，报错了，报错了！错误信息如下：

19/02/28 13:45:06 ERROR spark.SparkContext: Error initializing SparkContext.
java.lang.IllegalArgumentException: Required executor memory (1024+384 MB) is above the max threshold (1024 MB) of this cluster! Please check the values of 'yarn.scheduler.maximum-allocation-mb' and/or 'yarn.nodemanager.resource.memory-mb'.
    at org.apache.spark.deploy.yarn.Client.verifyClusterResources(Client.scala:281)
    at org.apache.spark.deploy.yarn.Client.submitApplication(Client.scala:140)
    at org.apache.spark.scheduler.cluster.YarnClientSchedulerBackend.start(YarnClientSchedulerBackend.scala:57)
    at org.apache.spark.scheduler.TaskSchedulerImpl.start(TaskSchedulerImpl.scala:158)
    （后面还有好多信息，在此省略）

仔细查看错误信息之后发现，原来是yarn配置的内存不够，spark启动需要1024+384 MB的内存，但是我的yarn配置仅有1024 MB，不够满足spark启动要求，所以抛出异常。

解决方法
　　登录Cloudera Manager，找到YARN (MR2 Included)，点击进如（不要在意我的集群有那么多警告和报错，解决spark问题是关键），如下图所示：
安装CDH后启动spark-shell报错解决方案
在导航栏找到配置选项，如下图所示：

点击进入配置页面，在搜索栏中输入yarn.scheduler.maximum-allocation-mb，如下图所示：

可以看到，该配置参数的值正如spark启动时抛出的异常所示，为1GB，将其修改为2GB即可，点击保存更改，我这里改成了5GB左右。

返回到spark节点命令行里面执行spark-shell命令。奇怪，仍然报错，但错误为其他，不再是上面的错误，错误信息为

19/02/28 14:09:08 ERROR spark.SparkContext: Error initializing SparkContext.
org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x
        at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.check(FSPermissionChecker.java:400)
        at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:256)
        at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:194)
 （后面还有好多信息，在此省略，但能进入Scala界面）
<console>:14: error: not found: value spark
       import spark.implicits._
              ^
<console>:14: error: not found: value spark
       import spark.sql
              ^
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.2.0-cdh6.0.0
      /_/
         
Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_141)
Type in expressions to have them evaluated.
Type :help for more information.

安装CDH后启动spark-shell报错解决方案
原因是启动spark的用户权限不够，我是使用root命令启动spark，需要hdfs用户启动spark（注：hdfs是hadoop的超级用户），所以报错，切换到hdfs用户下，再次启动是spark，成功。

或者切换到hdfs用户下给所有user赋予可操作权限

[[email protected] ~]# su - hdfs
-bash-4.2$ hadoop fs -chmod 777 /user/
-bash-4.2$ exit

再次启动是spark，成功。
安装CDH后启动spark-shell报错解决方案
补充
　　yarn.scheduler.maximum-allocation-mb 参数的作用：该参数在yarn-site.xml配置文件中配置，设置yarn容器的最大分配内存，以MB为单位，如果yarn资源管理器（RM/ResourceManager）中的容器请求的资源大于此处设置的值，就会抛出无效资源请求异常（InvalidResourceRequestException）。
　　yarn.nodemanager.resource.memory-mb参数的作用：该参数在yarn-site.xml配置文件中配置，设置yarn节点上可用的物理内存，默认大小为8192（MB），该内存可用于分配给yarn容器。

引用参考博客：https://www.cnblogs.com/cenwei/p/9168490.html

安装CDH后启动spark-shell报错解决方案

相关推荐