Apache OpenNLP在运行其命名实体识别(NER)模型时默认使用哪些功能?



我知道Apache OpenNLP使用MaxEnt模型作为其NER标记器。但是Apache OpenNLP在运行其命名实体识别(NER(模型时(默认情况下(使用了哪些功能?以及我们如何在OpenNLP(Java实现(中合并/定制新功能?

在Apache OpenNLP NER中,它允许用户通过XML文件定义特征。默认的 XML 是这样的:

https://github.com/apache/opennlp/blob/master/opennlp-tools/src/main/resources/opennlp/tools/namefind/ner-default-features.xml

如果要自定义它,请在训练模型时使用-featuregen选项:

$ opennlp TokenNameFinderTrainer -featuregen your-features-definition.xml -model my-model.bin ...

执行 TokenNameFinder 时,无需指定自定义要素 XML 文件,因为模型文件包含要素信息。

最新更新