斯坦福核心NLP - 引理未正确识别



我正在使用命令行中的coreNLP工具来标记一些包含德语文本的文件。我需要获取令牌、位置、引理和 ner 注释。为此,我使用以下命令:

java -cp "*" -Xmx2g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner-filelist $dir/filelist.input -outputFormat conll --add-modules java.se.ee -ner.useSUTime 0 -outputFormatOptions word,pos,lemma,ner -outputDirectory$dir/tagged_articles -replaceExtension -props StanfordCoreNLP-german.properties

但是,我得到的引理是不对的。下面是标记文件的示例:

Auch ADV auch O

eine ART eine O

ausgereifte ADJA ausgereifte O

Technik NN technik O

kann VMFIN kann O

jedoch ADV jedoch O

aAPPR a O

ihre PPOSAT ihre O

Grenzen NN grenzen O

stoßen VVINF stoßen O

其中一些词的引理应该是:ist -> sein/Textmengen -> Textmenge/enormen -> enorm/Grenzen -> Grenze。所以显然有问题,我想知道它可能是什么。任何提示都非常感谢!

我使用以下德国模型:斯坦福-德国-corenlp-2018-02-27-模型.jar

根据自述文件,核心NLP工具的版本是"2018-02-27 3.9.1">

Java版本"10.0.1" 2018-04-17

Java(TM( SE 运行时环境 18.3(build 10.0.1+10(

到目前为止,引理仅支持英语:

支持的人类语言

您可以尝试使用其他词形还原器并手动添加词元。

最新更新