Am nlp new for NLP,尝试在Spacy.io的帮助下创建NER模型,我只是为org Entity创建自己的NER模型https://spacy.io/usage/training#ner。受过训练的数据大小为100,训练有素的数据看起来像。,
TRAIN_DATA = [
("2003 -2005 Pergo Inc. Software AnalystDatabase Administrator", {"entities": [(11, 20, "ORG")]}),
("PROFESSIONAL EXPERIENCE Client: WPS Health Solutions, Madison, WI Mar17 - Till Date Role: RPA Developer", {"entities": [(32, 52, "ORG")]}),
("Client: National Institutes of Health (NIH/NIAMS), Bethesda, MD Jan15 - Feb17 Role: RPA Developer", {"entities": [(8, 36, "ORG")]}),
("Client: Wells Fargo, Fremont, CA July14 - Dec14 Role: .Net/SharePoint Developer", {"entities": [(8, 19, "ORG")]}),
]
现在我用训练有素的模型测试句子。如果使用训练有素的数据,我得到了完美的公司名称。
doc = nlp('Client: Ananth Technologies Limited, Hyderabad, India Feb11- July12 Role: QA Automation Tester')
print("Organization", [(ent.text, ent.label_) for ent in doc.ents])
组织[(U'ananth Technologies Limited',u'org'(
但我通过了新句子部分检测到。
doc = nlp('Client: MOUNTAIN HIGH HOME BUILDERS, Loveland, CO Application Engineer 8/03-5/10')
print("Organization", [(ent.text, ent.label_) for ent in doc.ents])
组织[(u'mountain high',u'org'(
现在,我逐渐增加了训练有素的数据,准确性同时提高了错误的单词,如org。我的训练有素的数据(句子(看起来有所不同,例如日期,指定,位置等...在不同的位置,您无法在上面看到(train_data(。现在在这里感到震惊,我的问题是正确的?
任何人都可以建议我提高我的模型吗?
谢谢
您需要一个更大的数据集来培训模型才能更好地预测。在大多数情况下,在不同情况下,有100个数据集将失败。