斯坦福CoreNLP - 破折号

问题描述：

我遇到了使用Stanford管线（CoreNLP的最后一个版本）解析BNC的问题。斯坦福CoreNLP - 破折号

有问题的句子摘录如下，问题是破折号（如果我删除它，它会通过）。

“......他们一次又一次地做了 - 多年来一次又一次。”

解析器只是陷在这句话中，它甚至不会引发错误。在Web界面中正确解析句子。

我试着用分词器的选项，没有结果。

我加我使用的命令行：的java [...] edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators记号化，SSPLIT，POS，depparse -tokenize.whitespace假-ssplit.eolonly真-parse .model edu/stanford/nlp/models/parser/nndep/english_SD.gz -file $ inputfile

有没有人有关于如何解决这个问题的建议？

非常感谢！

加布里埃拉

答

与OS X 10.10.4斯坦福CoreNLP v.3.5.2跑，我不能重现此问题。给出的示例字符串解析得很好。

有可能是一个问题，但如果是这样，它是微妙的，你想同样给斯坦福NLP版本，操作系统和版本更多的信息，并坚持一个文本文件，不工作的地方下载，以确保问题不会像在网页上粘贴文本时丢失的行结尾一样。

非常感谢照顾我的问题！ –

我在一台计算机集群上使用Stanford Corenlp-3.5.2，该集群的节点具有Linux 3.0.101-0.47.50。有问题的句子实际上比我最初发布的句子要长：因为我错误地认为问题出现在破折号中，所以我把它剪成原来的文章。对不起！我已经在以下链接上载了相应的.txt文件：http://cogsci.uni-osnabrueck.de/~glapesa/problematic_sentence.txt –

完整的句子也可以在我的Mac上进行处理.... Java的版本是什么你在跑？ Oracle Java 8（构建什么？）或Linux附带的OpenJDK版本？ –

斯坦福CoreNLP - 破折号

相关推荐