斯坦福核心NLP - 引理未正确识别 - Stanford CoreNLP - lemmas are not recognised correctly 小贝子编程网

我正在使用命令行中的coreNLP工具来标记一些包含德语文本的文件。我需要获取令牌、位置、引理和 ner 注释。为此，我使用以下命令：

java -cp "*" -Xmx2g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize，ssplit，pos，lemma，ner-filelist $dir/filelist.input -outputFormat conll --add-modules java.se.ee -ner.useSUTime 0 -outputFormatOptions word，pos，lemma，ner -outputDirectory$dir/tagged_articles -replaceExtension -props StanfordCoreNLP-german.properties

但是，我得到的引理是不对的。下面是标记文件的示例：

Auch ADV auch O

eine ART eine O

ausgereifte ADJA ausgereifte O

Technik NN technik O

kann VMFIN kann O

jedoch ADV jedoch O

aAPPR a O

ihre PPOSAT ihre O

Grenzen NN grenzen O

stoßen VVINF stoßen O

其中一些词的引理应该是：ist -> sein/Textmengen -> Textmenge/enormen -> enorm/Grenzen -> Grenze。所以显然有问题，我想知道它可能是什么。任何提示都非常感谢！

我使用以下德国模型：斯坦福-德国-corenlp-2018-02-27-模型.jar

根据自述文件，核心NLP工具的版本是"2018-02-27 3.9.1">

Java版本"10.0.1" 2018-04-17

Java(TM( SE 运行时环境 18.3(build 10.0.1+10(

到目前为止，引理仅支持英语：

支持的人类语言

您可以尝试使用其他词形还原器并手动添加词元。

斯坦福核心NLP - 引理未正确识别

相关内容

最新更新

热门标签：