使用Wordnet词根分析器获取词根

我需要为关键字提取器找到一个与所有相关单词匹配的通用词根。

如何使用python nltk词法分析器将单词转换为相同的词根?

如:
1. 泛化，泛化->一般
2. optimal, optimized -> optimize (maybe)
3. configure, configuration, configured -> configure

python nltk归纳器在使用词性(pos)标记参数时给出'generalize'，用于'generalized'和'generalizing'，但不用于'generalization'。

有办法做到这一点吗?

使用SnowballStemmer:

>>> from nltk.stem.snowball import SnowballStemmer
>>> stemmer = SnowballStemmer("english")
>>> print(stemmer.stem("generalized"))
general
>>> print(stemmer.stem("generalization"))
general

注:词源化与词干化密切相关。区别在于一个词干在不知道的情况下操作一个单词上下文，因此不能区分有根据词性不同有不同的含义

我看到的引理器的一个普遍问题是，它将更大的词识别为引理s。

的例子:在WordNet词法分析器(在NLTK中检查)中，

generalized => generalalize
Generalization => Generalization
概化=>概化

在上述情况下，

POS标签没有作为输入，所以它总是被认为是名词。

相关内容

最新更新

热门标签：