空间3:如何获得用于训练en_core_web_sm的原始数据?



我是space的新手。我注意到在所有en_core_web模型的文档中列出了许多NER类别:

'CARDINAL', 
'DATE', 
'EVENT', 
'FAC', 
'GPE', 
'LANGUAGE', 
'LAW', 
'LOC', 
'MONEY', 
'NORP', 
'ORDINAL', 
'ORG', 
'PERCENT', 
'PERSON', 
'PRODUCT', 
'QUANTITY', 
'TIME', 
'WORK_OF_ART'

我需要访问用于为每个单词分配正确类别的原始数据。换句话说,标记为'WORK_OF_ART'的单词列表是什么,这个列表可用吗?

我问这个问题的原因是我想构建一个使用一些默认NER类别以及我自己的自定义模型。

根据en_core_web的不同,数据也不同,

web_trfhttps://catalog.ldc.upenn.edu/LDC2013T19https://wordnet.princeton.edu/downloadApache 2.0Apache 2.0https://nlp.stanford.edu/projects/glove/✕

相关内容

最新更新