使用spark访问HDFS失败
我使用的是Cloudera 4.2.0和Spark。使用spark访问HDFS失败
我只想尝试一下Spark给出的一些例子。
// HdfsTest.scala
package spark.examples
import spark._
object HdfsTest {
def main(args: Array[String]) {
val sc = new SparkContext(args(0), "HdfsTest",
System.getenv("SPARK_HOME"), Seq(System.getenv("SPARK_EXAMPLES_JAR")))
val file = sc.textFile("hdfs://n1.example.com/user/cloudera/data/navi_test.csv")
val mapped = file.map(s => s.length).cache()
for (iter <- 1 to 10) {
val start = System.currentTimeMillis()
for (x <- mapped) { x + 2 }
// println("Processing: " + x)
val end = System.currentTimeMillis()
println("Iteration " + iter + " took " + (end-start) + " ms")
}
System.exit(0)
}
}
这是确定编制,但总是有一些运行时的问题:
Exception in thread "main" java.util.ServiceConfigurationError: org.apache.hadoop.fs.FileSystem: Provider org.apache.hadoop.hdfs.HftpFileSystem could not be instantiated: java.lang.IllegalAccessError: tried to access method org.apache.hadoop.fs.DelegationTokenRenewer.<init>(Ljava/lang/Class;)V from class org.apache.hadoop.hdfs.HftpFileSystem
at java.util.ServiceLoader.fail(ServiceLoader.java:224)
at java.util.ServiceLoader.access$100(ServiceLoader.java:181)
at java.util.ServiceLoader$LazyIterator.next(ServiceLoader.java:377)
at java.util.ServiceLoader$1.next(ServiceLoader.java:445)
at org.apache.hadoop.fs.FileSystem.loadFileSystems(FileSystem.java:2229)
at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2240)
at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2257)
at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:86)
at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2296)
at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2278)
at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:316)
at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:162)
at org.apache.hadoop.mapred.JobConf.getWorkingDirectory(JobConf.java:587)
at org.apache.hadoop.mapred.FileInputFormat.setInputPaths(FileInputFormat.java:315)
at org.apache.hadoop.mapred.FileInputFormat.setInputPaths(FileInputFormat.java:288)
at spark.SparkContext.hadoopFile(SparkContext.scala:263)
at spark.SparkContext.textFile(SparkContext.scala:235)
at spark.examples.HdfsTest$.main(HdfsTest.scala:9)
at spark.examples.HdfsTest.main(HdfsTest.scala)
Caused by: java.lang.IllegalAccessError: tried to access method org.apache.hadoop.fs.DelegationTokenRenewer.<init>(Ljava/lang/Class;)V from class org.apache.hadoop.hdfs.HftpFileSystem
at org.apache.hadoop.hdfs.HftpFileSystem.<clinit>(HftpFileSystem.java:84)
at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:57)
at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
at java.lang.reflect.Constructor.newInstance(Constructor.java:532)
at java.lang.Class.newInstance0(Class.java:374)
at java.lang.Class.newInstance(Class.java:327)
at java.util.ServiceLoader$LazyIterator.next(ServiceLoader.java:373)
... 16 more
我已搜查谷歌,不知道对这种异常的Spark和HDFS。
val file = sc.textFile("hdfs://n1.example.com/user/cloudera/data/navi_test.csv")
是问题发生的地方。
13/04/04 12:20:51 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
我得到了这个警告。也许我应该在CLASS_PATH中添加一些hadoop路径。
随意提供任何线索。 =)
谢谢大家。
任浩
这可能是与您的系统中安装的Java相关的问题。 Hadoop需要(Sun)Java 1.6+。 请确保您有:
JAVA_HOME =“/ usr/lib中/ JVM/JAVA-6-太阳
(这个问题也被要求在spark-users mailing list /回答)
您需要针对群集上运行的特定版本的Hadoop/HDFS编译Spark。从Spark documentation:
Spark使用Hadoop核心库t o与HDFS和其他Hadoop支持的存储系统交谈。由于HDFS协议在不同版本的Hadoop中发生了变化,因此必须针对群集运行的相同版本构建Spark。您可以通过在
project/SparkBuild.scala
顶部设置HADOOP_VERSION
变量,然后重新构建Spark(sbt/sbt clean compile
)来更改版本。
的spark-users邮件列表包含有关编译针对特定的Hadoop版本的几个问题,所以如果你建立星火时遇到任何问题,我会寻找在那里。
您可以建立星火当设置Coudera的Hadoop版本使用环境变量,查找在Cloudera的行家回购您的确切神器版本,应该是这样的:
SPARK_HADOOP_VERSION=2.0.0-cdh4.2.0 sbt/sbt assembly publish-local
确保你运行任何你用相同的运行用于构建Spark的Java引擎。此外,还有针对不同Cloudera Hadoop发行版的预先构建的Spark软件包,如http://spark-project.org/download/spark-0.8.0-incubating-bin-cdh4.tgz