我是spaCy的新手。我有一个(德语(文本,我想在其中找到字典中没有的所有单词(使用de_core_news_lg
管道(。在阅读spaCy的文档时,我发现唯一有希望的是Token.has_vector()
。当我检查通过运行nlp(TEXT)
获得的Doc对象中的所有标记时,我发现has_vector()
返回False
的标记实际上是打字错误或字典中不太可能出现的稀有单词。
因此,我的假设是,从Token.has_vector()
返回False
相当于没有在字典中找到相应的单词。我说得对吗?找字典里没有的单词有更好的方法吗?
spaCy不包括检查单词是否在字典中的功能。
如果已经加载了带有向量的管道,则可以使用has_vector
检查给定令牌是否存在单词向量。这有点类似于检查一个单词是否在字典中,但这取决于向量——对于大多数语言来说,向量只包括在训练语料库中出现至少一定次数的任何单词,因此会出现常见的拼写错误或其他奇怪的东西,而一些单词可能会随机丢失。
如果你想检测";真实的";单词在某种程度上,最好自己列出清单。