要么我错过了他们的文档,要么他们很难找到。任何指向我在哪里可以找到有关基础模型的信息的指针都会有所帮助
对于更多上下文,我将其用于具有自定义标签的 NER 任务,但我认为这应该不是很重要。
空白模型没有预先训练的标记器、解析器和 NER。
spacy.blank
功能在这里:Github链接。它只是调用util.get_lang_class(name)
它基本上从这里加载一个特定于语言的模块:Github链接到spacy/lang
下面是空白英语模型代码的链接: Github链接到空间英语模型
详细文档如下:添加新语言
如果您唯一要更改的是 NER,我会从预先训练的模型(我假设是英语)开始,然后禁用 NER 管道:
nlp = spacy.load("en_core_web_sm", disable = ['ner'])
使用此模型实例nlp
,您将训练 NER(如果它是基于 ML 的)或添加实体标尺管道(如果 NER 是基于规则的)。这样,您仍然可以使用 POS 标记器和依赖项解析器。完成训练后,只需使用to_disk
保存模型即可。如果您使用EntityRuler(基于规则的NER),则需要编写几行代码来注册新管道(在其web-ste上有很好的文档)