小贝子编程

空间3:如何获得用于训练en_core_web_sm的原始数据?

本文关键字：web core sm 原始数据 en 何获得用于空间 python nlp spacy named-entity-recognition
更新时间 : 2023-09-22
英文 : SpaCy 3: how to get the raw data used to train en_core_web_sm?

我是space的新手。我注意到在所有en_core_web模型的文档中列出了许多NER类别:

'CARDINAL', 
'DATE', 
'EVENT', 
'FAC', 
'GPE', 
'LANGUAGE', 
'LAW', 
'LOC', 
'MONEY', 
'NORP', 
'ORDINAL', 
'ORG', 
'PERCENT', 
'PERSON', 
'PRODUCT', 
'QUANTITY', 
'TIME', 
'WORK_OF_ART'

我需要访问用于为每个单词分配正确类别的原始数据。换句话说，标记为'WORK_OF_ART'的单词列表是什么，这个列表可用吗?

我问这个问题的原因是我想构建一个使用一些默认NER类别以及我自己的自定义模型。

根据en_core_web的不同，数据也不同，

web_trfhttps://catalog.ldc.upenn.edu/LDC2013T19✓https://wordnet.princeton.edu/download✓Apache 2.0✓Apache 2.0https://nlp.stanford.edu/projects/glove/✕✕

空间3:如何获得用于训练en_core_web_sm的原始数据?

相关内容

最新更新

热门标签：