使用spaCy查找不存在的单词



我是spaCy的新手。我有一个(德语(文本,我想在其中找到字典中没有的所有单词(使用de_core_news_lg管道(。在阅读spaCy的文档时,我发现唯一有希望的是Token.has_vector()。当我检查通过运行nlp(TEXT)获得的Doc对象中的所有标记时,我发现has_vector()返回False的标记实际上是打字错误或字典中不太可能出现的稀有单词。

因此,我的假设是,从Token.has_vector()返回False相当于没有在字典中找到相应的单词。我说得对吗?找字典里没有的单词有更好的方法吗?

spaCy不包括检查单词是否在字典中的功能。

如果已经加载了带有向量的管道,则可以使用has_vector检查给定令牌是否存在单词向量。这有点类似于检查一个单词是否在字典中,但这取决于向量——对于大多数语言来说,向量只包括在训练语料库中出现至少一定次数的任何单词,因此会出现常见的拼写错误或其他奇怪的东西,而一些单词可能会随机丢失。

如果你想检测";真实的";单词在某种程度上,最好自己列出清单。

最新更新