我正在使用命令行中的coreNLP工具来标记一些包含德语文本的文件。我需要获取令牌、位置、引理和 ner 注释。为此,我使用以下命令:
java -cp "*" -Xmx2g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner-filelist $dir/filelist.input -outputFormat conll --add-modules java.se.ee -ner.useSUTime 0 -outputFormatOptions word,pos,lemma,ner -outputDirectory$dir/tagged_articles -replaceExtension -props StanfordCoreNLP-german.properties
但是,我得到的引理是不对的。下面是标记文件的示例:
Auch ADV auch O
eine ART eine O
ausgereifte ADJA ausgereifte O
Technik NN technik O
kann VMFIN kann O
jedoch ADV jedoch O
aAPPR a O
ihre PPOSAT ihre O
Grenzen NN grenzen O
stoßen VVINF stoßen O
其中一些词的引理应该是:ist -> sein/Textmengen -> Textmenge/enormen -> enorm/Grenzen -> Grenze。所以显然有问题,我想知道它可能是什么。任何提示都非常感谢!
我使用以下德国模型:斯坦福-德国-corenlp-2018-02-27-模型.jar
根据自述文件,核心NLP工具的版本是"2018-02-27 3.9.1">
Java版本"10.0.1" 2018-04-17
Java(TM( SE 运行时环境 18.3(build 10.0.1+10(
到目前为止,引理仅支持英语:
支持的人类语言
您可以尝试使用其他词形还原器并手动添加词元。