Spacy NER模型培训数据改进

Am nlp new for NLP，尝试在Spacy.io的帮助下创建NER模型，我只是为org Entity创建自己的NER模型https://spacy.io/usage/training#ner。受过训练的数据大小为100，训练有素的数据看起来像。，

TRAIN_DATA = [
    ("2003 -2005 Pergo Inc. Software AnalystDatabase Administrator", {"entities": [(11, 20, "ORG")]}),
    ("PROFESSIONAL EXPERIENCE Client: WPS Health Solutions, Madison, WI                           Mar17 - Till Date Role: RPA Developer", {"entities": [(32, 52, "ORG")]}),
    ("Client: National Institutes of Health (NIH/NIAMS), Bethesda, MD             Jan15 - Feb17 Role: RPA Developer", {"entities": [(8, 36, "ORG")]}),
    ("Client: Wells Fargo, Fremont, CA                                                   July14 - Dec14 Role: .Net/SharePoint Developer", {"entities": [(8, 19, "ORG")]}),
]

现在我用训练有素的模型测试句子。如果使用训练有素的数据，我得到了完美的公司名称。

doc = nlp('Client: Ananth Technologies Limited, Hyderabad, India Feb11- July12 Role: QA Automation Tester')
print("Organization", [(ent.text, ent.label_) for ent in doc.ents])

组织[(U'ananth Technologies Limited'，u'org'(

但我通过了新句子部分检测到。

doc = nlp('Client: MOUNTAIN HIGH HOME BUILDERS, Loveland, CO Application Engineer 8/03-5/10')
print("Organization", [(ent.text, ent.label_) for ent in doc.ents])

组织[(u'mountain high'，u'org'(

现在，我逐渐增加了训练有素的数据，准确性同时提高了错误的单词，如org。我的训练有素的数据(句子(看起来有所不同，例如日期，指定，位置等...在不同的位置，您无法在上面看到(train_data(。现在在这里感到震惊，我的问题是正确的？

任何人都可以建议我提高我的模型吗？

谢谢

您需要一个更大的数据集来培训模型才能更好地预测。在大多数情况下，在不同情况下，有100个数据集将失败。

相关内容

最新更新

热门标签：