在NLTK中查找n-gram背后的想法或算法是什么?



我正在使用Python NLTK包从我的语料库中生成2克和3克。但是我找不到NLTK如何从语料库中生成它们。

我在这里找到了这个:N-grams简介:它们是什么,为什么我们需要它们?,但我想知道是否有任何其他算法可以找到n-grams。NLTK是否使用本文中的算法来查找n元语法?

和往常一样,非常感谢你。

您可以使用zip将句子中的成对/三元组/n长度的单词序列迭代为元组。

for s in sentences:
for w1, w2 in zip(s, s[1:]):
bigram = w1, w2

最新更新