斯坦福CoreNLP - 破折号
问题描述:
我遇到了使用Stanford管线(CoreNLP的最后一个版本)解析BNC的问题。斯坦福CoreNLP - 破折号
有问题的句子摘录如下,问题是破折号(如果我删除它,它会通过)。
“......他们一次又一次地做了 - 多年来一次又一次。”
解析器只是陷在这句话中,它甚至不会引发错误。在Web界面中正确解析句子。
我试着用分词器的选项,没有结果。
我加我使用的命令行: 的java [...] edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators记号化,SSPLIT,POS,depparse -tokenize.whitespace假-ssplit.eolonly真-parse .model edu/stanford/nlp/models/parser/nndep/english_SD.gz -file $ inputfile
有没有人有关于如何解决这个问题的建议?
非常感谢!
加布里埃拉
答
与OS X 10.10.4斯坦福CoreNLP v.3.5.2跑,我不能重现此问题。给出的示例字符串解析得很好。
有可能是一个问题,但如果是这样,它是微妙的,你想同样给斯坦福NLP版本,操作系统和版本更多的信息,并坚持一个文本文件,不工作的地方下载,以确保问题不会像在网页上粘贴文本时丢失的行结尾一样。
非常感谢照顾我的问题! –
我在一台计算机集群上使用Stanford Corenlp-3.5.2,该集群的节点具有Linux 3.0.101-0.47.50。有问题的句子实际上比我最初发布的句子要长:因为我错误地认为问题出现在破折号中,所以我把它剪成原来的文章。对不起!我已经在以下链接上载了相应的.txt文件:http://cogsci.uni-osnabrueck.de/~glapesa/problematic_sentence.txt –
完整的句子也可以在我的Mac上进行处理.... Java的版本是什么你在跑? Oracle Java 8(构建什么?)或Linux附带的OpenJDK版本? –