Spacy NER模型培训数据改进



Am nlp new for NLP,尝试在Spacy.io的帮助下创建NER模型,我只是为org Entity创建自己的NER模型https://spacy.io/usage/training#ner。受过训练的数据大小为100,训练有素的数据看起来像。,

TRAIN_DATA = [
    ("2003 -2005 Pergo Inc. Software AnalystDatabase Administrator", {"entities": [(11, 20, "ORG")]}),
    ("PROFESSIONAL EXPERIENCE Client: WPS Health Solutions, Madison, WI                           Mar17 - Till Date Role: RPA Developer", {"entities": [(32, 52, "ORG")]}),
    ("Client: National Institutes of Health (NIH/NIAMS), Bethesda, MD             Jan15 - Feb17 Role: RPA Developer", {"entities": [(8, 36, "ORG")]}),
    ("Client: Wells Fargo, Fremont, CA                                                   July14 - Dec14 Role: .Net/SharePoint Developer", {"entities": [(8, 19, "ORG")]}),
]

现在我用训练有素的模型测试句子。如果使用训练有素的数据,我得到了完美的公司名称。

doc = nlp('Client: Ananth Technologies Limited, Hyderabad, India Feb11- July12 Role: QA Automation Tester')
print("Organization", [(ent.text, ent.label_) for ent in doc.ents])

组织[(U'ananth Technologies Limited',u'org'(

但我通过了新句子部分检测到。

doc = nlp('Client: MOUNTAIN HIGH HOME BUILDERS, Loveland, CO Application Engineer 8/03-5/10')
print("Organization", [(ent.text, ent.label_) for ent in doc.ents])

组织[(u'mountain high',u'org'(

现在,我逐渐增加了训练有素的数据,准确性同时提高了错误的单词,如org。我的训练有素的数据(句子(看起来有所不同,例如日期,指定,位置等...在不同的位置,您无法在上面看到(train_data(。现在在这里感到震惊,我的问题是正确的?

任何人都可以建议我提高我的模型吗?

谢谢

您需要一个更大的数据集来培训模型才能更好地预测。在大多数情况下,在不同情况下,有100个数据集将失败。

最新更新