如何在NLP中提取不寻常的未知单词



我是NLP的新手,并尝试使用spacy,其他库也可以。 在我的数据集中,我有很多计算机位置和计算机名称的名称,例如: WRN212 asnd WRN800 SKh1038 PHk2gd 这个名字在我的数据集中是自由格式化的文本,有人知道如何提取这些单词吗?

这在斯帕西可能吗? 有没有地方和例子?

提前谢谢你。

迎接

">

未知词"是一个主观术语(名称,城市,公司名称等(,因此很难对其进行分类。如果您使用的是Spacy,我最好的选择是使用词形还原器来检查形态根是否存在。如果没有,则可能是您的单词未知(或拼写错误(。以下是您可以做到这一点的方法:

from spacy.lemmatizer import Lemmatizer
lemmatizer = Lemmatizer()
def is_unknown(word):
return len(lemmatizer(word)) == 0

最新更新