错误产生巨兽语料库
问题描述:
我是新来的Hadoop和巨兽,我跟着上https://github.com/DigitalPebble/behemoth/wiki/tutorial教程来生成一个文本文档的庞然大物语料库,使用以下命令:错误产生巨兽语料库
须藤斌/ Hadoop的JAR /家/ madhumita /behemoth/core/target/behemoth-core-*-job.jar com.digitalpebble.behemoth.util.CorpusGenerator -i /家庭/ madhumita /文档/ TESTFILE -o /家庭/ madhumita /庞然大物/ testGateOpCorpus
我出现错误:
错误util.CorpusGenerator:输入不存在:/ home/madhumita/Documents/testFile
每次我运行该命令时,尽管我已经用gedit检查过路径是否正确。我在网上搜索任何类似的问题,但我找不到任何。 任何想法,为什么它可能会发生?如果.txt文件格式不可接受,那么需要的文件格式是什么?
答
好的,我设法解决了这个问题。所需的输入路径是hadoop分布式文件系统上文件的路径,而不是本地计算机上的路径。
因此,我首先将本地文件复制到HDFS上的/data/test.txt,并将此路径作为输入参数。命令如下:
sudo bin/hadoop fs -copyFromLocal /home/madhumita/Documents/testFile/test.txt /docs/test.txt
sudo bin/hadoop jar /home/madhumita/behemoth/core/target/behemoth-core-*-job.jar com.digitalpebble.behemoth.util.CorpusGenerator -i /docs/test.txt -o /docs/behemoth/test
这就解决了这个问题。感谢所有试图解决问题的人。
答
要直接从本地文件系统生成Behemoth语料库,请使用文件协议进行引用。 (file:///)
hadoop jar core/target/behemoth-core-*-job.jar com.digitalpebble.behemoth.util.CorpusGenerator -i "file:///home/madhumita/Documents/testFile/test.txt" -o "/docs/behemoth/test"